spark读取kafka的数据 spark怎么处理kafka中的json的数据？

2021-03-18

1398

spark怎么处理kafka中的json的数据？构造函数是KafkaUtils.createDstream创建（SSC，[ZK]，[consumer group ID]，[per topic，part

spark怎么处理kafka中的json的数据？

构造函数是KafkaUtils.createDstream创建（SSC，[ZK]，[consumer group ID]，[per topic，partitions]）使用Kafka高级使用者API使用接收器接收数据。对于所有接收器，接收到的数据将保存在spark executors中，然后通过spark Streaming启动一个作业来处理数据，默认情况下这些数据将丢失。它可以启用存储在HDFS上的wal日志

基于接收器模式的实现将使用kakfa的高级消费API。与所有其他接收器一样，接收到的数据将保存到检查者，然后sparkstreaming启动作业来处理数据。

在默认配置中，如果出现故障，此方法将丢失数据。为了确保零数据丢失，我们需要启用wal（writeaheadlogs）。它将接收到的数据同步保存到分布式文件系统，如HDFS。因此，在发生错误时可以恢复数据。

使用两个步骤：1。添加依赖项：Spark streaming Kafka 2.10-1.3.0

2导入器g.apache.spark. 卡夫卡._

spark怎么处理kafka中的json的数据？

相关推荐