2016 - 2024

感恩一路有你

kafkatopic数据保留多久 如何获取kafka某一topic中最新的offset?

浏览量:4799 时间:2023-06-11 14:25:58 作者:采采

如何获取kafka某一topic中最新的offset?

如果你在0.9版本以上,可以用最新的Consumer client 客户端,有() / consumer.position() 可以用于得到当前最新的offset: ${log.dirs}/replication-offset-checkpoint

如何删除weblogicjmsdelayed状态的消息?

消消气~

你看到的“ Topic htmltrack_error is already marked for deletion”是正常的。Kafka删除topic的过程实际上是异步的:命令行仅仅是提交一个删除申请给到controller,并标记该topic为“待删除”状态。其实在Kafka服务器端真正的删除逻辑应该已经开启,正常情况下您需要多等待一段时间topic自然会被成功删除。

spark streaming集群如何做容灾处理?

spark streaming集群做容灾处理spark streaming有两种容错机制:spark自带的checkpoint,使用Kafka direct自行维护offset。

第一种方法中,checkpoint是spark streaming自带的一种检查点机制,可以通过一些特殊配置把输入数据和计算过程中的数据存储在可靠的文件系统中(比如hdfs或s3)。

它可以保存计算过程中的状态,在发生失败时可以控制回溯到什么程度,而不用重新进行计算。驱动器容错,在驱动器崩溃重启后,控制从什么位置继续读取数据。

checkpoint有三种应用方法元数据信息,主要包括:streaming应用程序的配置计算过程中一系列Dstream操作没有完成的批处理,在运行队列中的批处理但是没有完成;消费数据的偏移量;编译后的执行程序(jar文件)序列化后的二进制文件。

第二种方法基于接收者的,采用push,由kafka的topic将数据推向spark,使用API:使用的是kafka高级消费者API

效果:kafka将数据推到spark执行节点中并储存起来,然后由Spark Streaming启动作业来处理这些程序。

效果上,这种不是使用接收器接收,而是saprk每次拉取数据先去kafka中获取上一次拉取的偏移量。根据偏移量获取数据后,再进行处理。

笔者推荐第二种处理方法,自行维护offset要比spark自带的checkpoint更好一些,更加灵活、安全,容灾处理的能原力会更强。

数据 方法 过程 topic 状态

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。