Spark 在流式处理中的应用

最近更新时间: 2019-11-26 15:30:11

日常处理数据的过程中，除了离线处理，也有数据实时产生实时处理的情况。为满足实时处理数据的需求，就需要整合数据源（数据生产者）、处理组件以及结果输出这三部分，以达到流式处理（实时处理）的目的。
以下会有一个例子用 Kafka 来实现流式处理，更多的使用方式请参考SparkStreaming 官方文档
在做流式处理以前，需要引入一个概念 Dstreams（Discretized Streams），这是 Spark 实现流式处理所必需的一种高度抽象的数据结构。详细信息请参考Apache Spark Streamming。