一、Kafka概述
Kafka是一款流处理平台,提供一套完整的高吞吐、低延迟的数据发布和订阅服务。它可以处理TB级的数据,支持分布式、高可用的集群部署。
一个Kafka集群由多个Broker节点组成,每个Broker节点负责一部分数据的存储和处理。一个Kafka Topic可以由多个Partition组成,每个Partition可以按照Offset顺序存储数据。消费者可以按照Partition的顺序读取数据,实现高并发的数据处理和分发。
以下是一个Java Producer和Consumer的基本实现:
public class KafkaProducerDemo {
public static void main(String[] args) {
Properties props = new Properties();
props.put("bootstrap.servers", "localhost:9092");
props.put("acks", "all");
props.put("retries", 0);
props.put("batch.size", 16384);
props.put("linger.ms", 1);
props.put("buffer.memory", 33554432);
props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
Producer<String, String> producer = new KafkaProducer(props);
for(int i = 0; i < 100; i++)
producer.send(new ProducerRecord<>("test", Integer.toString(i), Integer.toString(i)));
producer.close();
}
}
public class KafkaConsumerDemo {
public static void main(String[] args) {
Properties props = new Properties();
props.put("bootstrap.servers", "localhost:9092");
props.put("group.id", "test");
props.put("enable.auto.commit", "true");
props.put("auto.commit.interval.ms", "1000");
props.put("session.timeout.ms", "30000");
props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
consumer.subscribe(Collections.singleton("test"));
while (true) {
ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
for (ConsumerRecord<String, String> record : records)
System.out.printf("offset = %d, key = %s, value = %s%n",
record.offset(), record.key(), record.value());
}
}
}
二、Kafka数据存储
Kafka的数据存储分为两部分:索引文件和日志文件。索引文件记录每个消息的Offset和存储位置,在读取消息时可以快速查找对应的存储位置;日志文件记录实际的消息内容,在写入和读取消息时通过内存映射技术提高了IO的效率。
以下是一个简单的Topic创建和数据写入的Java实现:
public class KafkaTopicDemo {
public static void main(String[] args) throws Exception {
Properties props = new Properties();
props.put("bootstrap.servers", "localhost:9092");
AdminClient adminClient = AdminClient.create(props);
List<NewTopic> newTopics = new ArrayList<>();
newTopics.add(new NewTopic("test", 1, (short) 1));
adminClient.createTopics(newTopics);
KafkaProducer<String, String> producer = new KafkaProducer<>(props);
for (int i = 0; i < 10; i++) {
producer.send(new ProducerRecord<>("test", Integer.toString(i), Integer.toString(i)));
}
producer.close();
}
}
三、Kafka数据发布和消费
Kafka提供了多种数据发布和消费的API,包括Java、Python、C++等各种编程语言的客户端API,以及各种流处理框架的集成API。
以下是一个基于Spring Boot的Kafka Consumer实现:
@Service
public class KafkaConsumerService {
@KafkaListener(topics = "test")
public void listen(ConsumerRecord<String, String> record) {
System.out.printf("offset = %d, key = %s, value = %s%n",
record.offset(), record.key(), record.value());
}
}
也可以通过Kafka的Web控制台来查看和管理Topic和消息:
KAFKA_HOME/bin/kafka-console-consumer.sh --topic test --bootstrap-server localhost:9092 --from-beginning
四、Kafka性能优化
为了提高Kafka的性能和可靠性,需要进行一系列的参数调优和系统优化。主要包括以下几个方面:
1.硬件资源调优:优化磁盘IO、内存占用和CPU利用率。
2.Kafka参数调优:调整Kafka的参数,包括Broker节点数量、Partition数量、Batch Size、Message Compression等。
3.消息生产和消费优化:优化Producer和Consumer的实现,包括加入批量发送、压缩等优化。
以下是一些常见的Kafka参数调优:
# Broker端参数 num.io.threads=8 num.network.threads=3 log.dirs=/var/lib/kafka log.index.size.max.bytes=10485760 log.index.interval.bytes=4096 log.segment.bytes=536870912 num.partitions=16 message.max.bytes=1000000 replica.fetch.max.bytes=16485760 replica.fetch.wait.max.ms=500 # Producer端参数 acks=1 batch.size=32768 linger.ms=5 compression.type=gzip # Consumer端参数 fetch.min.bytes=16384 fetch.max.bytes=5242880 max.poll.records=1024
原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/250507.html
微信扫一扫
支付宝扫一扫