Spark 在流式处理中的应用
最近更新时间: 2019-11-26 15:30:11
日常处理数据的过程中,除了离线处理,也有数据实时产生实时处理的情况。为满足实时处理数据的需求,就需要整合数据源(数据生产者)、处理组件以及结果输出这三部分,以达到流式处理(实时处理)的目的。
以下会有一个例子用 Kafka 来实现流式处理,更多的使用方式请参考SparkStreaming 官方文档
在做流式处理以前,需要引入一个概念 Dstreams(Discretized Streams),这是 Spark 实现流式处理所必需的一种高度抽象的数据结构。详细信息请参考Apache Spark Streamming。