RealTIME

Big data platform

with

lamda architecture

big data - now


이미 저장되어 있는 정형화된 데이터와

이제 생성되고 있는 비정형의 데이터를

Hadoop 생태계의 인프라에 저장하고, 

저장된 Big Data를 분석한다.

big data - now



저장된 데이터의 분석은
대부분 Batch 성 작업이고,

의미있는 데이터를 추출하는데
시간이 오래 걸린다.

big data - now


새로 출시된 카카오톡 게임의 
접속 수와 접속 자 통계를 알고 싶다.
그래서 잘 되는 게임은 마케팅에 더 힘을 실어 키우자.

Big Data 분석을 통해
의미있는 통계치를 구하는데 1달 소요.

하지만, 보통 카카오톡 게임의 생존 기간은 1달.

통계치를 내고 나면, 이미 게임은 사장된 상태..

big data - now





늦다.

big data - future


이제 대량의 데이터를 처리할 수는 있다.

하지만, 의미있는 정보를 뽑아내는 데
적지않은 시간이 필요하고,

그렇게 나온 정보는
 Time-to-Market을 충족하지 못한다.
그렇다면..

Real Time

big data - future


Complex Event Processing

선처리 후저장

이벤트 간의 인과 관계를 묶어서
복잡한 이벤트를
Realtime으로 도출

평년 기온보다 2도 높은 날이 2일간 지속되고,
카스 맥주의 소비량이 5% 이상 늘어난다면..

big data - future

Lamda Architecture

big data - future

Hadoop은 BatchLayer 담당
CEP는 SpeedLayer 담당

CEP Comparison

일단 라이선스 문제가 걸리니 WSO2 CEP로..

todo - output



Hadoop, WSO2 로 구현된

Lamda Architecture Platform

FOBB
(Flight Of the Bumble Bee)

todo - output


todo - output

큰 아키텍쳐는 지금까지와 같고, 만들어야 할 것은

데이터셋
실시간 대량 이벤트를 발생시킬 Grinder Script
이벤트를 CEP로 넣어주는 Input Adapter
Complex Event Processing Query
추출한 이벤트의 형태를 가공하는 Output Adapter
가공된 결과를 Mail이나 SNS로 Notify
Visualization
각 레이어를 연결하는 모듈
Hadoop Clustering 등 ...

todo - Output


Fresto에서 되어 있는 것
훈재 이사님 확인 필요

고속 이벤트 전송 모듈(Thrift/ZeroMQ)
CEP with ESPER
Storm, Cascalog, Pail
Hadoop
일부 시각화 D3.js

todo - output



Grinder로  대량의 로그 유발

Throughput 체크

DashBoard Visualization
예 : TweetPing

적절한 CEP Query로 이벤트를 추출하여 Notify

계속 보완 필요

Made with Slides.com