使用 Kafka 绑定器进行分区

Apache Kafka 本身支持主题分区。

有时将数据发送到特定分区是有利的,例如,当您想要严格排序消息处理时(针对特定客户的所有消息都应该发送到同一个分区)。

以下示例展示了如何配置生产者和消费者端

@SpringBootApplication
public class KafkaPartitionProducerApplication {

    private static final Random RANDOM = new Random(System.currentTimeMillis());

    private static final String[] data = new String[] {
            "foo1", "bar1", "qux1",
            "foo2", "bar2", "qux2",
            "foo3", "bar3", "qux3",
            "foo4", "bar4", "qux4",
            };

    public static void main(String[] args) {
        new SpringApplicationBuilder(KafkaPartitionProducerApplication.class)
            .web(false)
            .run(args);
    }

    @Bean
    public Supplier<Message<?>> generate() {
        return () -> {
            String value = data[RANDOM.nextInt(data.length)];
            System.out.println("Sending: " + value);
            return MessageBuilder.withPayload(value)
                    .setHeader("partitionKey", value)
                    .build();
        };
    }

}
application.yml
spring:
  cloud:
    stream:
      bindings:
        generate-out-0:
          destination: partitioned.topic
          producer:
            partition-key-expression: headers['partitionKey']
            partition-count: 12
重要的是要记住,由于 Apache Kafka 本身支持分区,因此除非您使用自定义分区键(如示例中所示)或涉及有效负载本身的表达式,否则无需依赖上述 binder 分区。否则,binder 提供的分区选择旨在用于不支持原生分区的中间件技术。请注意,我们在上面的示例中使用了一个名为 partitionKey 的自定义键,它将是分区决定因素,因此在这种情况下,使用 binder 分区是合适的。当使用原生 Kafka 分区时,即当您不提供 partition-key-expression 时,Apache Kafka 将选择一个分区,默认情况下,该分区将是记录键在可用分区数量上的哈希值。要向出站记录添加键,请将 KafkaHeaders.KEY 标头设置为 spring-messaging Message<?> 中的所需键值。默认情况下,当没有提供记录键时,Apache Kafka 将根据 Apache Kafka 文档 中描述的逻辑选择分区。
主题必须配置有足够的分区,以实现所有消费者组的所需并发性。上述配置支持最多 12 个消费者实例(如果它们的 concurrency 为 2,则为 6 个;如果它们的并发性为 3,则为 4 个,依此类推)。通常最好“过度配置”分区,以允许将来增加消费者或并发性。
前面的配置使用默认分区 (key.hashCode() % partitionCount)。这可能提供或可能不提供一个适当平衡的算法,具体取决于键值。特别要注意,此分区策略不同于独立 Kafka 生产者使用的默认策略(例如 Kafka Streams 使用的策略),这意味着当这些客户端生成时,相同的键值可能在分区之间以不同的方式进行平衡。您可以使用 partitionSelectorExpressionpartitionSelectorClass 属性覆盖此默认值。

由于分区由 Kafka 本地处理,因此消费者端不需要任何特殊配置。Kafka 在实例之间分配分区。

Kafka 主题的 partitionCount 可能会在运行时发生变化(例如,由于管理任务)。之后计算的分区将不同(例如,将使用新的分区)。从 Spring Cloud Stream 4.0.3 开始,将支持分区计数的运行时更改。另请参阅参数 'spring.kafka.producer.properties.metadata.max.age.ms' 以配置更新间隔。由于某些限制,无法使用引用消息 'payload' 的 'partition-key-expression',在这种情况下,该机制将被禁用。默认情况下,整体行为被禁用,可以使用配置参数 'producer.dynamicPartitionUpdatesEnabled=true' 启用。

以下 Spring Boot 应用程序监听 Kafka 流,并将每个消息进入的分区 ID 打印到控制台。

@SpringBootApplication
public class KafkaPartitionConsumerApplication {

    public static void main(String[] args) {
        new SpringApplicationBuilder(KafkaPartitionConsumerApplication.class)
            .web(WebApplicationType.NONE)
            .run(args);
    }

    @Bean
    public Consumer<Message<String>> listen() {
        return message -> {
            int partition = (int) message.getHeaders().get(KafkaHeaders.RECEIVED_PARTITION);
            System.out.println(message + " received from partition " + partition);
        };
    }

}
application.yml
spring:
  cloud:
    stream:
      bindings:
        listen-in-0:
          destination: partitioned.topic
          group: myGroup

您可以根据需要添加实例。Kafka 重新平衡分区分配。如果实例数量(或 instance count * concurrency)超过分区数量,则某些消费者将处于空闲状态。