新闻动态

院士来了!Kimi联合清华提出“算力预制菜”技术,AI词元吞吐提高54%!

发布日期:2026-05-03 00:25    点击次数:135

“算力预制菜”,这不是我提的,而是Kimi解析的PrfaaS技术。

就在国产Kimi K2.6模型即将发布的前夕,月之暗面Kimi联合清华放出关键技术突破。

4月17日,Kimi与清华大学日前联合推出全新跨数据中心架构PrfaaS(预填充即服务),直击大模型长上下文算力瓶颈。

PrfaaS架构把大模型长文本预填充单独交给专属算力集群处理,算出的KVCache通过普通网络传给解码集群用;再搭配智能调度与缓存优化,不用高端低延迟网络,就能让预填充、解码两大模块分开灵活扩容,降本又好部署。

展开剩余90%

实测基于1T混合参数模型,这套增强异构方案仅占用少量跨机房带宽,相较传统同构部署、基础异构方案,吞吐量分别提升54%、32%,大幅拉高超大模型集群吞吐上限。

4月17日,该研究成果以《Prefill-as-a-Service:KVCache of Next-Generation Models Could Go Cross-Datacenter》为题发表在Arxiv上。

本论文通讯作者为清华大学副教授、开源项目Mooncake发起人、开源项目KTransformers发起人章明星。

核心作者包括中国工程院院士、清华大学计算机系教授郑纬民,清华大学教授武永卫,许欣然、月之暗面秦若愚等人。月之暗面工程副总裁

需要提及一点的是,Mooncake这也是郑纬民院士最自豪的研究成果之一——几乎每次演讲都会提到。

https://arxiv.org/abs/2604.15039v1论文:

对于Kimi K2.5背后技术,详见前文:杨植麟GTC大会演讲全文:Kimi的三大核心技术将颠覆AI大模型的未来

这次诞生出两个新的AI名词:KVCache(键值缓存)、PrfaaS。

通俗点说,KVCache就是使用AI回答问题时存起来的“历史聊天记忆+计算草稿”,避免重复干活,大幅提速、省算力。

实际上,目前在AI推理阶段,大语言模型主要分PD两步分离式架构输出:

1、预填充(Prefill)。你发完问题,AI一次性把你整段话、上下文全部算一遍,算出一堆关键数据,打包存下来,这堆存下来的数据就是KVCache。

2、解码生成(Decode逐字输出)。后面慢慢打字的时候,直接调用存好的KVCache缓存,只算最新一个字,不用重复算前面所有内容。

许欣然曾解释称:

通常情况下,一台机器上的GPU既用于“备菜”(预填充,即思考过程),也用于“炒菜”(解码,即逐字逐句输出),这两个阶段交替进行。假设今天只有一个请求,就是显卡可以顺利地进行“思考”和“输出”,过程相对简单。但是随着用户增多,传统想法是需要更多人使用同一张卡进行服务,因此当显卡在“炒菜”的过程中,如果有新请求进来,它就必须立即开始“备菜”。在Kimi的表现上可能是回答一半卡住,等一会儿再继续,这样的用户体验很差。

通过分离式架构,我们将“备菜”和“炒菜”阶段独立开来。这样每个阶段都有专人负责,如果“炒菜”的资源不足,就增加“炒菜”的资源,“备菜”资源不足就增加“备菜”的资源,每个任务完成后,转交至下一阶段。这样不管用户有多少,只要对话开始,就不会出现卡顿问题。我们可以放心地将压力加载,GPU始终保持满负荷运行。一方面降低了成本,另一方面也提升了用户体验,实现了双赢。

当前,预填充-解码 (PD) 解耦已成为大规模 LLM 服务的标准架构,但实际上其部署边界仍然取决于键值缓存 (KVCache) 的传输。

而在传统的密集注意力模型中,预填充会产生巨大的KVCache流量,使得预填充和解码在单个高带宽网络域内紧密耦合,从而限制了异构部署和资源弹性。

近年来,包括DeepSeek在内的全新混合注意力架构,大幅减小了KVCache的大小,使得跨集群KVCache传输变得越来越可行。

然而,仅仅减小KVCache的大小并不能使异构跨数据中心的PD服务真正实现:实际工作负载仍然具有突发性,请求长度高度不均匀,前缀缓存分布不均,并且集群间带宽波动较大。

因此,完全将预填充外部化的简单设计仍然可能面临拥塞、队列不稳定和利用率低等问题。

论文中以MiniMax 2.5为例。

在标准 Transformer 式注意力中,KVCache 随上下文长度线性增长,可能达到数十GB。具有GQA的代表性密集模型 MiniMax-M2.5 在不同输入长度下的 KV 吞吐量,瓶颈非常明显:对于一个32K tokens的请求,单个MiniMax-M2.5实例产生的KVCache约为60 Gbps,所需的出站带宽远远超过典型机器跨数据中心以太网的容量。

这正是为什么传统的PD分离仍然在操作上与紧密集成的网络域绑定在一起的原因。网络预算如此之大,以至于在更松散的互连上移动预填充和解码,更不用说跨数据中心了,根本不可行。

因此,在AI算力工程阶段,Kimi和清华大学团队基于全新的跨数据中心服务架构“预填充即服务”(Prefill-as-a-Service,简称PrfaaS),解决此问题。

那么,PrfaaS如何解决传统PD分离架构的异构部署瓶颈?我根据论文,总结了以下三点:

1、混合注意力模型减少KVCache规模;

2、选择性卸载长上下文请求问题,使仅50%的长请求占用带宽,且混合模型KV吞吐量降低13倍,最终跨数据中心带宽需求仅为13Gbps

3、带宽感知调度与缓存感知路由,使跨数据中心带宽需求降至百Gbps量级。

具体而言,根据论文,PrfaaS-PD系统包含三个角色:PrfaaS预填充、PD-P(PD集群内的预填充节点)和PD-D(PD集群内的解码节点)。

该架构选择性地将长上下文预填充任务卸载到独立的、计算密集型的预填充集群,并通过通用以太网将生成的键值缓存(KVCache)传输到本地的预处理集群进行解码。

PrfaaS并非仅仅减少KVCache容量,而是将模型端的键值效率与系统端的选择性卸载、带宽感知调度和缓存感知请求放置相结合。这种设计无需异构加速器共享相同的低延迟RDMA网络,从而实现了在耦合集群间独立扩展预填充和解码容量。

论文还通过一个案例研究来验证这一思路,该案例使用了内部的1T参数混合模型——也就是Kimi K2.5。

遵循Kimi Linear架构,该模型在独立的PrfaaS集群用于长上下文预填充、以及传统PD集群用于解码和短上下文预填充所构成的异构部署中,系统的服务吞吐量分别比同构PD基准和拓扑异构基准高出54%和32%,同时每台机器仅消耗适度的跨数据中心带宽。

这些结果表明,KVCache高效的模型架构是必要的,但并不足以实现跨数据中心的异构服务。真正使部署可行的是模型端KVCache的精简与系统端选择性卸载及带宽感知调度的结合。

二者共同作用,将跨数据中心PD分离从一种颇具吸引力的想法转变为一种切实可行的服务架构。

论文指出,尽管异构PrfaaS-PD配置中采用32个H200 GPU,本地PD采用64个H20 GPU,但仅作为具有代表性的硬件组合,并非唯一可行的搭配。更具成本效益的预填充专用芯片将进一步降低生产环境中的部署成本。

换句话说,这套架构也用了国产或专用AI芯片进行部署测试。

论文结论中表示:“为应对异构分散推理的实际部署挑战,我们提出了跨数据中心KVCache的概念,将分散式服务从单一同构集群扩展到跨集群的异构部署。在此基础上,我们设计了PrfaaS-PD分散架构,通过利用商品以太网连接的异构PrfaaS集群,以低成本提升系统服务吞吐量。我们设想,跨数据中心KVCache范式将与下一代模型、硬件和网络协同演进,从而实现大规模下高效大模型服务。”

本论文通讯作者、清华大学教授、KVCache.AI团队负责人章明星,本科毕业于北京邮电大学,博士毕业于清华大学,师从清华大学教授武永卫,曾担任深信服首席算法技术专家和创新研究院院长,并在系统领域发表数十篇顶级会议论文。

清华大学KVCache.AI团队发布了开源项目KTransformers中,仅用一张24GB的消费级显卡就成功驱动了具有236B参数量的DeepSeek V2大模型,实现了14 Tokens/秒的生成速度——这意味着,2千亿大模型的使用门槛降低到4万以内。

天眼查显示,清华大学计算机科学与技术系教授武永卫联合发起成立的AI infra公司趋境科技中,章明星持股2.6783%。

郑纬民院士。现任中国工程院院士、九源智能计算系统生态联合体理事长、清华大学计算机系教授。

郑纬民院士1970年毕业于清华大学自动控制系,1982年获清华大学计算机科学与技术专业硕士学位,1985年至1986年在美国纽约州立大学石溪分校进修学习,1989年至1991年在英国南安普敦大学进修学习,曾任中国计算机学会理事长。2019年,郑纬民当选中国工程院院士。

郑纬民主要学术方向为网络存储系统。长期从事网络存储系统科学研究、工程建设和人才培养。

本论文第一作者Ruoyu Qin(秦若愚),目前就职于月之暗面,曾在清华大学计算机科学与技术系MADSys实验室读博,师从章明星教授,主要研究领域为分布式系统和机器学习系统。

此前,秦若愚和章明星在KVCache.AI项目上,与月之暗面共同发布了人工智能助手Kimi底层的Mooncake模型推理架构。这一架构承载了Kimi 80%以上的实际线上流量,在某些模拟场景中,吞吐量可以增加到未优化场景的5.25倍。

Mooncake论文还在USENIX 文件和存储技术会议 (FAST)上获得Erik Riedel Best Paper Award。

就在今年4月15日,Kimi推出的K2.6-code-preview已经上线。

这意味着,Kimi即将要发布K2.6系列新的基座模型。

早前,据界面新闻,在Kimi K2.5模型发布一个月之后,月之暗面ARR(年度经常性收入)突破1亿美元。

不得不说,杨植麟掌舵的月之暗面堪称AI赛道迭代标杆。

一边快速更新Kimi模型版本,一边深耕底层算力架构创新,软硬协同全速突破,进化效率拉满,稳步奔赴AGI终局。

发布于:北京市

上一篇:广东流行音乐馆开馆 打造湾区“音乐+”特色新地标
下一篇:没有了