云算力新搭档:AWS 牵手 Cerebras,如何破解推理速度瓶颈?
- 科技快讯
- 21小时前
- 10热度
最近圈里都在聊,AWS 这回是真下本了。美国当地时间 3 月 13 日,亚马逊云科技(AWS)正式官宣,要把 Cerebras 的 CS-3 系统装进自己的数据中心,通过 Amazon Bedrock 平台提供混合 AI 推理服务。这事儿不简单,因为 AWS 本身就有自家的 Trainium 芯片,现在却主动引入了外部的 Cerebras CS-3,这背后到底打的什么算盘?我长期盯着云算力和芯片赛道,这回合作,本质上是一场 “扬长避短” 的精密分工,也是云厂商在推理赛道上,对现有格局的一次大胆破局。
分工明确:Trainium 管前半段,CS-3 扛后半段
这次合作最核心的巧思,在于把 AI 推理这个活儿,拆成了两段,分别交给两款最擅长的芯片来干。简单说,就是Trainium 负责 “预填充”(Prefill),Cerebras CS-3 负责 “解码”(Decode),两者通过 AWS 的 EFA 弹性网络适配器高效连接,发挥各自的最大优势。
为啥要这么拆?我给大伙儿捋捋。推理这事儿,先得把用户的提示词(Prompt)转换成模型能懂的令牌(Tokens),这个过程数据量大、并行计算多,对算力要求极高,但对内存带宽的要求相对适中。Trainium 芯片天生就是为这种并行负载设计的,它的 FP8 算力、HBM3e 内存和 Neuron Fabric 互联技术,在大规模并行处理上那是相当拿手。
而到了 “解码” 阶段,模型要根据令牌生成最终的回复,这是个串行过程,算力要求没那么夸张,但内存带宽就是命根子了。数据得在计算核心和内存之间疯狂来回搬运,带宽不够,速度就卡死了。这正是 Cerebras CS-3 的拿手好戏。它搭载的 WSE-3 芯片,有 4 万亿个晶体管,90 万个 AI 优化核心,最绝的是那高达21 PB/s的聚合片上内存带宽,这可是 H100 的 7000 倍。用它来扛解码阶段,简直是杀鸡用了宰牛刀,速度直接拉满。
这么一组合,就不是简单的 1+1=2 了,而是 1+1>2。既能发挥 Trainium 在大规模并行处理上的成本与效率优势,又能借助 CS-3 在高带宽串行任务上的极致性能,最终给用户的就是一个全程丝滑、响应极快的体验。

为啥非要这么干?AWS 的算盘与行业痛点
有人可能会问,AWS 自己的 Trainium3 不也挺强吗?单芯片 FP8 算力能到 2.52 PFLOPS,一台 UltraServer 能塞 144 颗,总算力 362 PFLOPS,性能和能效都提升了好几倍。但赛道变了,需求也变了。
现在大模型推理的痛点太明显了。随着 ChatGPT 这类应用的普及,用户对响应速度的要求已经到了 “秒级” 甚至 “毫秒级”。传统的 GPU 方案,虽然通用性强,但在推理这种特定场景下,尤其是高带宽需求的解码环节,往往会遇到 “存储墙” 的瓶颈,数据搬来搬去,延迟下不去,成本也下不去。
AWS 的算盘打得精。一方面,它不想把所有鸡蛋放在一个篮子里。Trainium 系列芯片目前已部署超过 100 万颗,是 AWS 自研芯片生态的基石,但它在极致推理速度上,确实有提升空间。引入 Cerebras CS-3,正好能补齐这块短板,形成一个 “高速 + 高性价比” 的分层推理服务体系。速度要求没那么极致的,用纯 Trainium 服务,价格更亲民;追求极致速度的,比如代码生成、复杂智能体应用,就上 Trainium+CS-3 组合。
另一方面,这也是对英伟达的一次有力回应。英伟达靠 GPU 在 AI 训练和通用计算市场一家独大,但 Cerebras 这种晶圆级芯片,就是专门为解决特定 AI 计算痛点而生的。AWS 通过这种 “自研 + 外部强强联合” 的模式,就是要打破英伟达的垄断,给客户更多选择,同时巩固自己在云市场的绝对统治地位。
降低长期成本,性价比拉满
很多人觉得用高端芯片成本肯定高。但算总账,CS-3 虽然单价不低,但它的高带宽和低延迟,能大幅减少服务器数量和电力消耗。再加上 Trainium 在并行任务上的成本优势,整体来看,单位算力的成本是可以降下来的。AWS 官方也表示,目标是 “持续推进速度提升并降低价格”。对于那些推理任务繁重的大客户,长期下来能省下一大笔钱。
简化开发,降低技术门槛
Cerebras CS-3 有个很大的特点就是易用。它的 “权重流” 架构,能让模型参数直接流经计算核心,大大简化了分布式编程的复杂度。开发人员用它,所需代码比 GPU 方案减少 97%,以前可能要写几千行,现在几百行就搞定了。这对于很多技术实力没那么强的中小企业来说,是个巨大的吸引力,降低了他们用上先进 AI 算力的门槛。
灵活扩展,适配不同规模需求
这套方案不是一刀切的。客户可以根据自己的业务需求,灵活组合 Trainium 和 CS-3 的算力。比如,小流量、低成本的业务用纯 Trainium;大流量、高并发的核心业务,就用 CS-3 加速。这种弹性的架构,能最大化资源利用率,避免浪费。
当然,这条路也不是一帆风顺的。Cerebras 作为一家初创公司,要在 AWS 的生态里站稳脚跟,还需要持续优化产品,确保兼容性和稳定性。而 AWS 也要平衡好自研芯片和外部合作的关系,不能让合作伙伴喧宾夺主。但无论如何,这次合作,已经为 AI 算力的未来,指明了一个更高效、更多元的方向。
