spark读取kafka的数据 spark怎么处理kafka中的json的数据?

spark怎么处理kafka中的json的数据?构造函数是KafkaUtils.createDstream创建(SSC,[ZK],[consumer group ID],[per topic,part

spark怎么处理kafka中的json的数据?

构造函数是KafkaUtils.createDstream创建(SSC,[ZK],[consumer group ID],[per topic,partitions])使用Kafka高级使用者API使用接收器接收数据。对于所有接收器,接收到的数据将保存在spark executors中,然后通过spark Streaming启动一个作业来处理数据,默认情况下这些数据将丢失。它可以启用存储在HDFS上的wal日志

基于接收器模式的实现将使用kakfa的高级消费API。与所有其他接收器一样,接收到的数据将保存到检查者,然后sparkstreaming启动作业来处理数据。

在默认配置中,如果出现故障,此方法将丢失数据。为了确保零数据丢失,我们需要启用wal(writeaheadlogs)。它将接收到的数据同步保存到分布式文件系统,如HDFS。因此,在发生错误时可以恢复数据。

使用两个步骤:1。添加依赖项:Spark streaming Kafka 2.10-1.3.0

2导入器g.apache.spark. 卡夫卡._