面对 AI 浪潮下实时数据需求的爆发式增长,IBM 选择以 110 亿美元将数据流平台 Confluent 收入囊中,这不仅仅是 IBM 在云计算和 AI 领域的关键落子,更可能预示着消息流技术赛道的新机会。
当 IBM 宣布将以 110 亿美元收购 Confluent(Apache Kafka 商业运营主体)时,市场的反应非常热烈,Confluent 股价应声暴涨近 30%。这笔交易不仅是 2025 年下半年企业软件领域最大规模的并购之一,更体现了 IBM 在人工智能和数据基础设施领域的战略野心。
01 战略布局
IBM 此次收购 Confluent 并非一时冲动,而是其混合云和 AI 战略的必然延伸。在全球数据量预计将在 2028 年前翻倍、超过 10 亿个新应用上线的背景下,实时数据流动变得前所未有的重要;收购 Confluent 将使 IBM 能够为客户提供更加完整的 AI 基础设施解决方案,补强其“数据+自动化”产品组合。
近四年来,Confluent 的可服务市场规模从 500 亿美元翻倍至 1000 亿美元,这一增长速度远超传统企业软件市场,显示出实时数据流技术在 AI 时代的强劲需求。IBM 董事长兼 CEO Arvind Krishna 明确表示:“IBM 与 Confluent 的结合将使企业能够更好、更快速地部署生成式 AI 和 Agent。”
消息队列与 AI 的结合并非新概念:随着 AI Agent 的发展,多智能体协作系统(Multi-Agent System, MAS)因需实现任务拆分、并发处理、角色分工与协同推理等复杂能力,已成为构建实用 AI Agent 系统更贴近现实、更强大的架构范式;这本质上构建了一个分布式系统。消息队列作为核心的异步通信基础设施,提供了高效、解耦、可靠、缓冲和可扩展的消息传递能力,正是解决分布式 Agent 间高效协作问题的关键所在。
02 架构之困
Kafka 的架构在应对 AI 时代的海量、多模态、实时数据需求时,逐渐显露出深层次的设计局限。
消费模式单一是 Kafka 的一大限制,其设计主要集中在流模式,缺乏原生的共享队列消费支持。这意味着当需要实现负载均衡的队列场景时,用户只能通过复杂的分区配置来实现。
消息确认机制不够灵活也是 Kafka 为人诟病的问题。Kafka 使用基于偏移量的累积确认机制,一旦确认某个偏移量,该偏移量之前的所有消息都被视为已处理。这种“要么全有,要么全无”的模式在某些场景下会导致效率损失。
运维复杂性则随着集群规模扩大而增加。Kafka 的单层架构将存储和计算耦合在一起,使得扩展和维护变得复杂。分区一旦增加便无法减少,也限制了系统的灵活性。
这些技术债在数据规模较小时尚可忍受,但在日均处理千亿级消息的当下已成为严重瓶颈。更为根本的是,Kafka 存算一体的架构,使得存储与计算资源无法独立扩展,既不经济也不灵活。
面对这些挑战,Confluent 通过商业发行版构建了解决方案:增强型集群管理工具缓解运维压力,云托管服务降低使用门槛,流治理功能提升数据可控性。正是这套企业级增强方案,支撑了 Confluent 近百亿美元的估值与市场认可。
然而,修补式创新终有天花板。当作为 Kafka 诞生地的 LinkedIn 也开始转向存算分离的 Northguard 时,行业信号已经明确:下一代数据流平台需要全新的架构设计。这恰恰解释了为何开源的 Pulsar 正获得越来越多技术决策者的关注——它从诞生之初就直面 Kafka 的核心痛点,提供了架构层面的系统性解决方案。
03 架构革命
Pulsar 以一种近乎颠覆性的架构设计,为消息队列在 AI 时代面临的规模、成本与复杂性挑战提供了系统性的答案。它并非对 Kafka 的简单改进,而是一次从设计哲学到技术实现的全面跃迁。
革命性的存算分离架构是 Pulsar 一切优势的基石。与Kafka 将存储与计算紧密耦合于 Broker 节点的单体架构不同,Pulsar 清晰地分层为无状态的计算层(Broker)和专有的持久化存储层(BookKeeper)。这一分离带来了根本性的变革:Broker 可以随时按需扩缩容,实现秒级的弹性与无感的滚动升级;存储层则独立地保障数据的持久性与一致性。这种架构天然契合云原生的本质,使得资源利用率、运维灵活性和系统可靠性获得了数量级的提升。
基于存算分离,Pulsar 衍生出一系列碾压性的工程优势。在负载均衡方面,无状态的 Broker 使得主题(Topic)的负载能在集群中瞬时、自动地重新分布,彻底告别了 Kafka 中分区再平衡带来的漫长服务中断。
在成本控制上,其独创的分层存储(Tiered Storage) 功能,能自动将冷数据从昂贵的 SSD 卸载到对象存储(如S3),在保证毫秒级读取热数据的同时,将海量历史数据的存储成本降低一个量级,这对 AI 时代需要留存和回溯全量训练数据的场景至关重要。
Pulsar 还在企业级关键能力上构建了坚固的壁垒。与Kafka 主要专注于流模式不同,Pulsar 通过灵活的订阅机制同时支持队列和流两种消息模型,其原生的跨地域复制(Geo-Replication) 在架构层提供了低延迟、强一致性的全球数据同步能力,为业务全球化和灾备设立了新标准。
在高可用与高可靠方面,BookKeeper 的 Quorum 写入机制与多副本策略,确保了即使多个节点同时故障,数据也毫发无损,且不会出现性能抖动。
这些特性共同支撑了其在金融、物联网、互联网、机器学习、AI 等核心场景中所需的极致低延迟与持续高可用。
总结而言,Pulsar 通过一套完整、自洽的先进架构,系统性地解决了规模增长带来的成本、复杂性与可靠性的“不可能三角”。它不再是一个单纯的消息管道,而是一个能够智能管理数据全生命周期、弹性适应负载、无缝跨越地理边界的企业级数据流平台。
04 Pulsar vs. Kafka
作为新一代消息系统,Pulsar 展现出了明显的技术优势,其存算分离架构让计算节点和存储节点可以独立扩展,更适合现代云计算环境。Bossie Awards 的评价也印证了这一点:“Pulsar旨在取代 Kafka多年的主宰地位。”
05 未来图景
AI 时代,消息流技术正面临前所未有的发展机遇和挑战。随着智能体技术和事件驱动架构的普及,对实时数据流动的需求将持续增长;消息系统将承担包含复杂事件处理、流式计算和实时分析在内的综合任务。进一步地,消息流技术也将与边缘计算、物联网和人工智能更紧密地结合,成为支撑下一代智能应用的关键基础设施。
随着 IBM 对 Confluent 的收购,全球超过 6500 家企业客户将被纳入 IBM 的生态系统,但这并非赛道的终点。Pulsar 代表了一种充满潜力的新方向:通过深度的架构创新,将高性能、低成本、易运维和强弹性这些曾经相互妥协的目标统一起来;消息流平台将从满足单一功能的工具进化为能够承载企业核心数字业务的、具有平台级智能与韧性的基石。
Apache Pulsar 作为一个高性能、分布式的发布-订阅消息系统,正在全球范围内获得越来越多的关注和应用。如果你对分布式系统、消息队列或流处理感兴趣,欢迎加入我们!
Github:
https://github.com/apache/pulsar
扫码加入 Pulsar 社区交流群
最佳实践
互联网
腾讯BiFang | 腾讯云 | 微信 | 腾讯 | BIGO | 360 | 滴滴 | 腾讯互娱 | 腾讯游戏 | vivo | 科大讯飞 | 新浪微博 | 金山云 | STICORP | 雅虎日本 | Nutanix Beam | 智联招聘 | 达达 | 小红书
金融/计费
腾讯计费 | 平安证券 | 拉卡拉 | Qraft | 甜橙金融
电商
Flipkart | 谊品生鲜 | Narvar | Iterable
机器学习
腾讯Angel PowerFL | Discord
物联网
云兴科技智慧城市 | 科拓停车 | 华为云 | 清华大学能源互联网创新研究院 | 涂鸦智能
通信
江苏移动 | 移动云
教育
网易有道 | 传智教育
推荐阅读
免费可视化集群管控 | 资料合集 | 实现原理 | BookKeeper储存架构解析 | Pulsar运维 | MQ设计精要 | Pulsar vs Kafka | 从RabbitMQ 到 Pulsar | 内存使用原理 | 从Kafka到Pulsar | 跨地域复制 | Spring + Pulsar | Doris + Pulsar | SpringBoot + Pulsar