作为构建于 Spark 之上的应用框架,Spark Streaming 承袭了 Spark 的编程风格,已经了解 Spark 的用户能够快速地上手。使用 Spark Streaming 一般需要进行如下的操作。(1)创建 StreamingContext 对象。
(2)创建 DStream 输入源:Spark Streaming 需要指明数据源,DStream 输入源包括基础来源和高级来源,基础来源是在 StreamingContextAP中直接可用的来源,如文件系统流套接字(Socket)流和 Akka Aetors 流,高级来源包括 Kafka、Flume、Kinesis 等形成的数流,高级来源可以通过额外的实用工具类创建。
(3)操作 DStream:对于从数据源得到的 DStream,用户可以在 DStream 的基础上进行各种操作。
(4)启动 Spark Streaming:之前的所有步骤只创建了执行流程,程序没有真正连接上数据源,也没有对数据进行任何操作,只设定好了所有的执行计划,当执行“ssc.start()”命令启动流处理后,程序才真正进行所有预期的操作。