Waterdrop

一个简单易用，高性能，能够应对海量数据的数据处理产品

为什么需要 Waterdrop(WD)
WD 能做什么／应用场景
WD 特性
WD 工作流程
WD 插件
WD 配置
WD 部署、运行
WD 监控
WD插件开发

主题

WD 架构
WD 相似产品比较
WD 核心实现
WD 插件体系
WD 易用性
WD 性能
WD 核心工作
WD 发展潜能
关注 InterestingLab

分布式数据处理入门易，精通难
太多Spark重复代码，重复逻辑可以抽象和简化
实现高效不出错的spark程序有难度
海量数据处理挑战多，经验少
开发、测试、上线周期长

为什么需要Waterdrop(WD)

通过我们的努力让Spark的使用更简单，更高效，并将业界和我们使用Spark的优质经验固化到Waterdrop这个产品中，明显减少学习成本，加快分布式数据处理能力在生产环境落地。

海量数据ETL
海量数据聚合
多源数据处理

Waterdrop 是什么

Waterdrop 应用场景

Waterdrop 是一个简单易用，高性能，能够应对海量数据的实时/离线数据处理产品，构建于Apache Spark之上。

简单易用，灵活配置，无需开发
支持实时流式处理和离线分批处理2种运行模式
高性能
海量数据处理能力
模块化和插件化，易于扩展
支持利用SQL做数据处理和聚合
支持spark 1.6 ～ spark 2.x

Waterdrop 特性

Waterdrop 工作流程

数据源输入

数据反序列化

数据处理

数据序列化

结果输出

Input Plugin

Serializer Plugin

Filter Plugin

Output Plugin

Serializer Plugin

Waterdrop 插件

Input Plugin:

Hdfs, Http, Kafka, Redis, Stdin, Tcp,

自行开发的Input plugin

Filter Plugin:

Aggregate, Clone, Date, Dict, Drop, Geoip, Grok, Kv, Prune, Range, Split, SQL, 自行开发的Filter plugin

Output Plugin:

Elasticsearch, File, HBase, Hdfs, Http, Kafka, Mongodb, MySQL, Stdout,

自行开发的Output plugin

Serializer Plugin:

Carbondata, Csv, Json, Gzip, ORC, Parquet, Protobuf, Raw,

自行开发的Serializer plugin

Waterdrop 配置

input {
    kafka {
        topics = "gpc.oi_gaoyingju.test1"
        consumer.bootstrap.servers = "10.110.94.130:9092,10.110.94.131:9092,10.110.95.50:9092,10.110.95.68:9092,10.110.95.82:9092"
        consumer.zookeeper.connect = "10.110.94.130:2181,10.110.94.131:2181,10.110.95.50:2181,10.110.95.68:2181,10.110.95.82:2181"
        consumer.group.id = "scala_test_group1"
        consumer.num.consumer.fetchers = "4"
        consumer.auto.offset.reset = "largest"
    }
}

filter {
    split {
        delimiter = " "
        keys = ["a", "b", "c"]
        source_field = "raw_message"
        target_field = "msg"
    }
}

sql {
    query {
        table_name = "mytable"
        sql = "select * from mytable where a = \"value\""
    }
}

output {
    kafka {
        topic = "gpc.oi_wangjie7.test1"
        producer.bootstrap.servers = "10.110.94.130:9092,10.110.94.131:9092,10.110.95.50:9092,10.110.95.68:9092,10.110.95.82:9092"
        producer.acks = "1"
        producer.retries = "2"
        producer.retry.backoff.ms = "100"
        producer.batch.size = "46384"
        producer.linger.ms = "6000"
        producer.buffer.memory = "268435456" # 256 MB
        producer.key.serializer = "org.apache.kafka.common.serialization.StringSerializer"
        producer.value.serializer = "org.apache.kafka.common.serialization.StringSerializer"
        producer.compression.type = "snappy"
        producer.send.buffer.bytes = "131072"
        producer.max.request.size = "1048576"
        producer.max.in.flight.requests.per.connection = "2"

    }
}

Waterdrop 部署、运行

## (1) Spark Submit

$SPARK_HOME/bin/spark-submit \
    --master yarn-clienta \
    --num-executors 30 \
    --executor-cores 2 \
    --executor-memory 2G \
    --conf spark.app.name=Waterdrop \
    --conf spark.ui.port=13000 \
    --conf spark.streaming.blockInterval=1000ms \
    --conf spark.streaming.kafka.maxRatePerPartition=30000 \
    --conf spark.streaming.kafka.maxRetries=2 \
    --conf spark.yarn.jar=hdfs://alluxio-cluster/sparkLib/spark-assembly-1.6.0-hadoop2.6.0.jar \
    --conf spark.local.dir=/data/slot6/streamingetl/tmp \
    --conf spark.driver.extraJavaOptions=-Dconfig.file=/data/slot6/waterdrop/application.conf \
    --class org.interestinglab.waterdrop.WaterdropMain \
    /data/slot6/waterdrop/WaterdropMain-assembly-0.1.0.jar


## (2) Spark Job Server with Rest API

Use Rest API to submit Waterdrop Application.

Waterdrop 监控

Waterdrop 架构

Waterdrop 相似产品比较

Waterdrop vs Spark :

基于Spark；灵活配置，开发少；更接近用户需求；

Waterdrop vs Flume/Logstash:

分布式集群；能够应对海量数据；支持SQL

Waterdrop 核心实现

(1) Dstream ---> foreachRDD ---> foreachPartition

Spark 实时流式计算

(2) Dstream ---> foreachRDD ---> toDataFrame ---> executeSQL

---> toRDD ---> foreachPartition

Waterdrop 核心实现

核心：

（1）数据流转：将input, filter, output, serializer plugin处理逻辑集成到Spark运行的各阶段中。

（2）Event：程序中用于存储数据的数据结构，实现了setField(), getField(), toJson(), toMap(), getSchema()等基础功能，支持多级嵌套Field。

（3）用 Spark SQL的 DataFrame, UDF 实现(1)，用 Row 实现 (2)。

Waterdrop 核心实现

通过DataFrame/SQL做数据处理：

（1）转换：select substr(name, 0, 10), get_userid(url) from table1

（2）过滤：select * from table1 where http_status != 200

（3）聚合：select datatime, count(*) as req_count, sum(totalsize) / 60 as bandwidth from table1

（4）将Waterdrop的Filter插件，注册为Spark SQL的UDF(User Defined Function), UDAF(User Defined Aggregation Function)，实现通过SQL完成各种Filter功能。

（5）Spark SQL提供了丰富的UDF。

Waterdrop 插件体系

（1）实现一个插件就是继承和实现特定的方法。

（2）利用Scala的Reflection机制实现根据插件类名加载插件。

（3）用abstract class定义BaseXXX能够更好的同时支持Java/Scala。

（4）用插件实现80%的常见数据处理逻辑。

（4）用户开发的插件与Waterdrop项目互相独立。

Waterdrop 易用性

举例:

(1) Kafka Input 允许记录每个Batch 的历史offset，便于对比和回退

(2) 支持Spark 1.6 ~ Spark 2.x

(3) 数据分散统计。场景：统计数据各个时间点的分散程度，对于分散的数据做特殊处理。

(4) ...

Waterdrop 可靠性

举例:

(1) 数据处理的at-most-once, at-least-once, exactly-once

(2) Gracefully Shutdown

(3) 应用存活检测，健康状况检测，自动拉起。

(4) ...

Waterdrop 性能

举例:

（1）充分利用Spark分布式计算的性能。

（2）经过优化的代码实现和固化的高性能调优经验。

（2）利用广播变量减少重复建立连接次数。

（4）...

Waterdrop 核心工作

第一期:

项目的开发、测试规范和流程

项目框架(Event, 数据流)的开发与测试

配置中支持复杂配置逻辑（如：if else 的逻辑，模版变量，预定义变量）

主要插件的开发与测试

部署、运行流程的包装

简洁易懂的中英文文档

第二期：

统计监控功能

Spark UI

Listener Plugin(实现常用的Spark Listener)

支持离线计算

第三期：

性能优化检查器

插件Repo的完整管理体系

支持机器学习算法

Waterdrop 发展潜能

（1）好产品吸引关注度和使用量

（2）Github开源让更多开发者加入

（3）运营和推广提高知名度

（4）深入Spark成为Committer

Questions & Answers

关注 Interesting Lab :

https://github.com/InterestingLab

References

1. http://spark.apache.org/docs/latest/streaming-programming-guide.html

2. http://spark.apache.org/third-party-projects.html

3. https://github.com/spark-jobserver/spark-jobserver
4. http://arturmkrtchyan.com/apache-spark-hidden-rest-api
5. https://livy.incubator.apache.org/