sparkkafka 史上最全的kafka知识解析( 二 )

无需wal，进一步减少磁盘IO操作
2.direct方式生的rdd是KafkaRDD，它的分区数与kafka分区数保持一致一样多的rdd分区来消费，更方便我们对并行度进行控制
注意：在shuffle或者repartition操作后生成的rdd，这种对应关系会失效
3.可以手动维护offset，实现exactly once语义
4.数据本地性问题。在KafkaRDD在compute函数中，使用SimpleConsumer根据指定的topic、分区、offset去读取kafka数据。
但在010版本后，又存在假如kafka和spark处于同一集群存在数据本地性的问题
5.限制消费者消费的最大速率
spark.streaming.kafka.maxRatePerPartition：从每个kafka分区读取数据的最大速率(每秒记录数) 。这是针对每个分区进行限速，需要事先知道kafka分区数，来评估系统的吞吐量。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。