Kafka Partition详解

一、基本概念

Kafka是一个高吞吐量的、分布式的发布/订阅消息系统。在Kafka中，消息被组织为一个或多个主题，每个主题由一个或多个分区组成。分区是Kafka消息的最小单元，也是实现高吞吐量的基础。

Partition是Kafka中的一种基本概念，它是一个有序且不可变的消息序列。消息被顺序追加到Partition中，并且保证了一定的顺序性和持久性。

每个Partition都有一个唯一的标识符(即Partition ID)，这个标识符是由Kafka自动生成的，并且在创建Partition时被指定。每个Partition在集群中有一个或多个副本，这些副本被分布在不同的Broker上。

二、Partition的作用

Partition的设计是为了实现高吞吐量。在Kafka中，每个Partition都是一个有序、不可变的消息队列，可以使所有的消息都以尽可能高的吞吐量被写入和读取。另外，Partition还有以下两个作用：

1、水平扩展：通过将消息分布到多个Partition上，可以实现消息的水平扩展，从而提高Kafka的吞吐量和容量。

2、数据耐久性：由于消息被追加到Partition中并在多个Broker上进行备份，因此即使某些Broker宕机或数据丢失，消息也可以高效异步地进行恢复。

三、Partition的同步和异步复制

在Kafka中，Replica是Partition的副本，在集群中有多个Replica可以保障消息的高可用性。Replica可以分为同步复制和异步复制两种方式。

同步复制：同步复制是指当主Replica接收到消息并将其写到本地磁盘之后，才会向所有副本（包括异步副本和同步副本）发送确认消息。只有等到所有副本都写入完毕之后，主Replica才会返回消息确认，再开启下一轮消息的写入流程。

异步复制：异步复制是指当主Replica接收到消息并将其写到本地磁盘之后，即会立即返回确认消息并开启下一个消息的写入流程，在之后的某个时间，在异步状态下向副本发送消息并进行备份。

四、Partition的动态分配

在Kafka集群中，每个Broker都会负责一部分Partition，称为该Broker的负责Partition集(Partition Ownership Set)。在某些情况下，可能需要对Partition的动态分配进行调整以满足一些需求，比如：

1、增加Broker、减少Broker时需要重新平衡Partition。在向集群中添加或删除Broker时，需要重新平衡Partition，以保证集群的整体负载均衡性。

2、手动分配Partition：当需要将某些Partition单独分配给某些Broker时，可以使用手动分配的方式进行配置。

Kafka提供了Rebalance protocol来支持Partition的自动分配，它通过ZooKeeper或其他协调系统进行领导选举，并按照一定的规则、策略对Partition进行重新分配。Rebalance可以分为两个阶段：

1、Partition的各个副本(role)和Broker(broker)的变化会触发类Raft选主机制的Rebalance第一个阶段，需要所有副本和broker都加入到Rebalance的候选列表，在"全部副本在broker上就位"时完成。这个过程中回涉及到broker上面的datalog策略（数量、时效等），机器选举策略（保证分布均匀、性能优良、可靠）等设计。

2、当Rebalance Leader产生后，会将Rebalance操作下发给Follower broker，Follower broker接收到消息后，需要重新调整自己所负责的Partition，触发Partition的选择进行自我重新分配。

五、Partition的使用

Kafka中的Partition是实现高吞吐量的基础。在使用Kafka时，我们通常需要进行以下步骤：

1、创建Topic: 在Kafka中创建Topic时需要指定其名称、Partition数量、以及Replication Factor（副本数）。这里Partition数量的选择需要根据实际情况和需求来进行调整。

2、生产者往Topic中写入数据：生产者负责将消息写入到指定的Topic和Partition中。

3、消费者从Topic中读取数据：消费者可以从指定的Partition中读取数据，读取的方式可以是顺序读取或随机读取。Partition副本的同步和异步备份可以保障数据的可用性和持久性。

// 代码示例：创建5个Partition和2个副本的Topic
bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 2 --partitions 5 --topic my-test-topic

六、总结

Kafka Partition是Kafka消息队列中的基本单位，每个Partition都是一个有序、不可变的消息序列。Partition可以实现水平扩展，提高Kafka的吞吐量和容量。同时，Partition还可以保障数据的可用性和持久性，保证高效异步地进行恢复。Partition的动态分配可以通过Rebalance进行自动实现，也可以手动分配。

原创文章，作者：CPGD，如若转载，请注明出处：https://www.506064.com/n/148783.html