Esper를 잘 사용하려면 EPL을 잘 사용해야 할 것 같다. EPL 레퍼런스가 워낙 양이 많아 다 읽어보지 못했지만, Esper를 학습하는 진입 지점으로 사용할 수 있도록 몇 가지 기초적인 내용을 좀 추려보았다.
관련 시리즈:
- Esper 초보 시리즈 1 - 퀵스타트
- Esper 초보 시리즈 3 - Output을 이용한 출력 제어
- Esper 초보 시리즈 4 - Insert into, 조인, 서브쿼리
- Esper 초보 시리즈 5 - 패턴
- Esper 초보 시리즈 6 - 컨텍스트
EPL 기본 구조
EPL의 기본 구조 및 EPL이 선택한 데이터를 UpdateLister에서 접근할 때 사용하는 코드는 아래와 같다.
// 모든 이벤트를 선택
select * from StockTick
// UpdateListener의 구현 코드
EPStatement eps = epService.getEPAdministrator().createEPL("select * from StockTick");
eps.addListener(new UpdateListener() {
@Override
public void update(EventBean[] newEvents, EventBean[] oldEvents) {
StockTick pe = (StockTick) newEvents[0].getUnderlying();
...
}
});
select에서 선택한 이벤트는 UpdateListener.update() 메서드의 newEvents 파라미터로 전달된다. 위 코드의 EPL의 경우 한 번에 한 개의 이벤트만 선택되기 때문에, newEvents에는 길이가 0인 배열에 전달된다.
EventBean은 선택한 이벤트에 접근할 수 있는 몇 가지 메서드를 제공하고 있는데, 위 EPL과 같이 select 절에서 "*"을 사용한 경우 getUnderlying() 메서드를 이용해서 데이터에 접근할 수 있다.
다음은 이벤트에서 특정 프로퍼티만 사용하는 경우의 코드이다.
// 모든 이벤트의 특정 프로퍼티를 선택
select name, code, cost from StockTick
// UpdateListener.update 메서드
public void update(EventBean[] newEvents, EventBean[] oldEvents) {
String name = (String) newEvents[0].get("name");
String code = (String) newEvents[0].get("code");
int cost = (Integer) newEvents[0].get("cost");
...
}
where 절을 이용해서 특정 조건을 충족하는 이벤트를 선택할 수 있다.
// 특정 조건을 충족하는 이벤트를 선택
select * from StockTick where rate > 10 and cost > 5000
다음처럼 from 절의 이벤트나 select 절에서 별칭을 사용할 수 있다.
// 별칭 사용
select s.name, s.code, s.cost as cost from StockTick s where s.rate > 10
// UpdateListener.update 메서드
public void update(EventBean[] newEvents, EventBean[] oldEvents) {
String name = (String) newEvents[0].get("s.name");
String code = (String) newEvents[0].get("s.code");
int cost = (Integer) newEvents[0].get("cost");
}
위 코드에서 눈여겨 볼 점은 select 절에서 "별칭.프로퍼티" 이름으로 프로퍼티의 경우 EventBean.get() 메서드에서도 그대로 "별칭.프로퍼티이름"을 사용한다는 것이다. 이 형식을 사용하기 싫으면 s.cost의 경우처럼 as 를 이용해서 이름을 변경하면 된다.
윈도우
최근 10분간 발생한 모든 주문의 합을 실시간으로 추적하고 힢다면 어떻게 해야 할까? 또는 가장 최근에 발생한 20개의 이벤트 중 가장 큰 값을 구하려면 어떻게 해야 할까? 이럴 때 사용할 수 있는 게 윈도우이다. 윈도우는 일정 시간 동안 또는 일정 개수의 이벤트를 메모리에 보관하고, EPL에서는 이 윈도우에 보관된 이벤트 목록를 대상으로 결과를 뽑아낼 수 있다.
주요 윈도우는 다음의 네 가지가 있다.
- 시간 윈도우
- 시간 배치 윈도우
- 길이 윈도우
- 길이 배치 윈도우
시간(time) 윈도우
시간 윈도우는 이벤트가 발생한 기준으로 지정한 시간 동안만 이벤트를 보관한다. 예를 들어, 지정 시간이 1분이라면, 마지막에 발생한 이벤트를 기준으로 최근 1분 사이에 발생한 이벤트만 윈도우에 보관된다. 지정한 시간이 지나면 이전 이벤트는 윈도우에서 제거된다. 아래 그림은 시간 윈도우의 동작 방식을 그림으로 부여주고 있다.
* 출처: http://esper.codehaus.org/
위 그림에서 윈도우 크기를 4초로 잡았다고 가정하자. W1 이벤트는 t+4초 시점에 발생했다. 이 시점에서 윈도우에는 W1 이벤트만 보관되어 있다. 위 그림에서 둥근 사각형이 윈도우를 의미한다. t+5초 시점에 W2 이벤트가 발생했고, 이 시점에 윈도우에는 W2, W1 이벤트가 보관된다. t+8초 시점에 되면 W1은 윈도우에서 제거된다.
[참고]
윈도우에서 제거된 이벤트는 UpdateListener를 통해서 받을 수 있는데, 그러기 위해서는 select 구문에서 rstream 키워드를 사용해야 한다. 이에 대한 내용이 궁금하다면, EPL 레퍼런스 문서를 확인해보도록 하자.
시간 윈도우를 정하는 방식은 아래와 같다.
select * from StockTick.win:time(5 seconds) s where s.cost > 100
보통은 위와 같이 단순히 select를 하기 보다는 그룹 함수와 함께 사용되는 경우가 많다. 예를 들어, 아래 코드는 최근 30초간 발생한 StockTick 이벤트를 code로 그룹핑 한 뒤, 각 code별로 최대 cost 및 StockTick을 구한다.
select s as tick, max(cost) as maxCost from StockTick.win:time(30 seconds) s group by s.code
시간 배치 윈도우
시간 배치 윈도우는 일정 간격으로 이벤트를 모아서 처리할 때 사용한다. 시간 배치 윈도우의 동작 방식은 아래 그림과 같다.
* 출처: http://esper.codehaus.org/
시간 배치 윈도우는 지정한 시간동안 들어온 이벤트를 윈도우에 보관한다. 시간 배치가 종료되는 시점에 select 결과를 전달하고, 다시 새로운 시간 배치를 시작한다.
시간 배치를 지정할 때에는 아래 코드처럼 win:time() 뷰를 사용한다.
select s as tick, max(cost) as maxCost from StockTick.win:time_batch(30 seconds) s
group by s.code
시간 배치 윈도우를 사용할 때 유의할 점은 타임 배치 내에 이벤트가 들어오지 않으면 null을 발생하고, 그 다음 타임 배치에서도 이벤트가 들어오지 않으면 null을 발생하지 않는다는 점이다. 예를 들어, 3초 타임 배치를 사용하는 "select max(cost) from StockTick.win:time_batch(3 sec)" EPL을 사용하고, 다음의 시간 순으로 이벤트가 들어왔다고 하자.
- 1초(100) -> 4초(200) -> 13초(500) -> 이후 안 들어옴
- 3초(100) -> 6초(200) -> 9초(null) -> 15초(500) -> 18초(null)
길이 윈도우
시간 윈도우가 지정한 시간만큼 윈도우에 보관된다면, 길이 윈도우는 지정한 개수 만큼의 이벤트만 윈도우에 보관한다. 동작 방식은 아래 그림과 같다.
* 출처: http://esper.codehaus.org/
위 그림은 길이가 5인 길이 윈도우의 경우를 보여주고 있는데, 이 경우 윈도우에는 최대 5개의 이벤트만 보관된다. 이미 5개의 이벤트가 윈도우에 보관된 상태에서 새로운 이벤트가 추가되면, 가장 오래된 이벤트가 윈도우에서 제거된다.
길이 윈도우를 사용하는 방법은 다음과 같다.
select s as tick, max(cost) as maxCost from StockTick.win:length(5) s group by code
길이 배치 윈도우
시간 배치 윈도우와 비슷하게 길이 배치 윈도우는 지정한 길이 만큼 이벤트가 차면, select 결과를 발생시키고 새로운 배치를 시작한다. 길이 배치는 win:length_batch()를 사용해서 지정한다.
select s as tick, max(cost) as maxCost from StockTick.win:length_batch(5) s group by code
필터
where 절 외에 이벤트에 조건을 거는 또 다른 방법으로 필터가 있다. 필터를 사용하면 다음과 같이 이벤트의 조건을 지정할 수 있다. 필터를 사용할 때에는 아래 코드처럼 이벤트 이름 뒤에 괄호를 사용해서 지정한다.
select * from StockTick(cost > 2000).win:length(3)
where 절과 필터가 이벤트의 조건을 확인하는 건 동일하지만, 다음의 중요한 차이점이 있다.
- 필터 조건을 충족하지 않는 이벤트는 윈도우에 포함되지 않는다.
- where 조건을 충족하지 않는 이벤트는 일단 윈도우에 포함되고 그 다음에 select 과정에서 where 조건을 검사한다.
- cost=3000, cost=1000, cost=2000, cost=4000, cost=5000, cost=6000 (왼쪽부터 이벤트가 들어온다고 가정)
- [cost=5000, cost=4000, cost=3000] (왼쪽이 최신)
- [cost=5000, cost=4000, cost=2000] (왼쪽이 최신)
그룹핑과 집합 연산
EPL도 SQL과 유사하게 count() 등의 집합 관련 함수와 group by/having를 이용한 그룹핑을 지원하고 있다. Esper가 제공하는 함수 목록은 레퍼런스 문서를 찾아보도록 하고, 여기서는 기본적인 동작 방식 위주로 설명할 것이다.
아래 코드는 집합 함수의 사용 예이다. 지금까지 들어온 StockTick 이벤트에 대해서 최대 cost와 평균 cost를 구한다.
select max(cost) as max, avg(cost) as avg from StockTick
다음처럼 시간 윈도우를 이용해서 최근 3초간 최대 cost와 평균 cost를 구할 수도 있다.
select max(cost) as max, avg(cost) as avg from StockTick.win:time(3 sec)
group by는 SQL과 마찬가지로 이벤트의 프로퍼티를 이용해서 그룹핑을 할 때 사용된다. 예를 들어, 종목 코드 별로 현재까지 최대/평균을 알고 싶다면 다음과 같이 group by를 사용하면 된다.
select code, max(cost) as max, avg(cost) as avg from StockTick group by code
having을 사용하면 그룹 함수에 대한 선택 조건을 지정할 수 있다. (avg(), sum() 등의 그룹 함수는 where 절에서 제약할 수 없다.)
select code, avg(cost) as avg from StockTick group by code having avg(cost) > 2000
그룹핑과 윈도우 이동에 따른 결과 이벤트 발생 시점
아래 EPL을 보자.
select code, avg(cost) as avg from StockTick.win:time(3 sec) group by code
이 EPL은 code를 기준으로 그룹을 구성하고, 3초 시간 윈도우를 지정하였다.이 경우 윈도우 새롭게 이벤트가 들어오면 위 select 결과가 UpdateListener에 전달된다. 아래 그림은 이벤트 발생 시점과 UpdateListener과 호출되는 시점을 표시한 것이다. 이 그림을 보면 이벤트가 발생하자 마자 거의 바로 리스너가 호출되는 것을 확인할 수 있다. 이벤트가 들어오면 윈도우에 포함된 이벤트들의 cost 평균이 바뀌므로 리스너에 새로운 평균을 전달한다.
위 그림에서 주황색 상자는 5.5초 정도에서 3초 구간을 표시한 것인데, 5.5초 정도에는 새롭게 윈도우에 들어온 이벤트가 없음에도 리스너가 호출되는 것을 알 수 있다. 여기서 리스너가 호출된 이유는 윈도우에서 이벤트가 벗어났기 때문이다. 윈도우에서 이벤트가 벗어나면 윈도우의 평균값이 바뀌게 되고, 따라서 바뀐 평균을 리스너에 전달하는 것이다.
그룹핑과 그룹 함수에 따른 select 출력 개수
기본적으로 아래 코드는 1개 이벤트 당 1개의 출력을 생성한다.
select * from StockTick
그런데, group by 대상과 select 대상을 어떻게 잡느냐에 따라서 select로 발생하는 결과 개수가 달라진다. 다음표는 레퍼런스를 문서를 참고해서 몇 가지 상황 별로 이를 정리한 것이다. 배치가 아닌 시간 윈도우나 길이 윈도우를 사용할 경우 매 이벤트마다 결과가 발생되므로, 이해를 돕기 위해 시간 배치 윈도우를 기준으로 설명하였다.
조건 |
예제 쿼리 |
출력 개수 |
그룹핑 없음, 그룹 함수 없음 |
select * from StockTick |
이벤트 당 1개 |
그룹핑 없음 그룹 함수만 사용 |
select avg(cost) from StockTick.win:time_batch(3 sec) |
배치 시간 당 1개 |
그룹핑 없음, 그룹 함수와 프로퍼티 함께 사용 |
select code, avg(cost) from StockTick.win:time_batch(3 sec) |
이벤트 당 1개 |
그룹핑 존재, 그룹 함수와 그룹핑 대상 프로퍼티만 사용 |
select code, avg(cost) from StockTick.win:time_batch(3 sec) group by code |
그룹 당 1개 |
그룹핑 존재 그룹 함수/그룹핑 대상 프로퍼티 및 다른 프로퍼티 함께 사용 | select name, code, avg(cost) from StockTick.win:time_batch(3 sec) group by code | 이벤트 당 1개 |