在韩国首尔举办的顶级学术会议上 阿里云发布“Aegaeon”计算池化解决方案

大模型“烧钱”烧在哪?不是训练,是推理。训练像买房,一次性付款还能忍;推理像房租,月月交、年年涨,一问房东GPU。传统玩法“一卡一模型”,哪怕只问一句“今天天气如何”,也得给整张A100开工资。于是,阿里云在SOSP 2025上把“Aegaeon”扔到桌上:GPU狂降82%,不是打折,是拼单,拼到Token级别。总之就是让一张卡同时打八份工,还不摸鱼。

把GPU“切片”卖,算力界的“共享充电宝”

Aegaeon的核心是“Token级虚拟化”:每次生成一个Token,系统立刻判断“下一家”是谁,把GPU时间切成微秒级片段,像滴滴拼车一样顺路接单。过去,模型A空闲50毫秒,卡就只能干瞪眼;现在,50毫秒足够模型B、C、D各跑一步,GPU利用率从30%拉到90%,浪费变“满房”。更妙的是“无感切换”,上下文被压缩成“便携背包”,新模型上车不用重新热身,用户端只觉“回答快了一点”,后台却完成一次“偷梁换柱”。

推理界的“短跑冠军”,专治“突发流量”

大模型最怕“双十一”式突袭:一条热搜,问答量瞬间翻百倍,传统扩容最少十分钟,足够把“爆火”拖成“爆款故障”。Aegaeon把调度器塞进推理链路,毫秒级决策:流量高峰,立刻把“碎片模型”塞进共享池;低谷来临,自动归集,释放资源给下一波。测试显示,面对10倍突发请求,Aegaeon用原池20%算力就能扛住,相当于给GPU装上“无级变速”,不用再“多买三张卡”备着过年。

降本之外的“隐藏彩蛋”:绿色算力与小型玩家

82%的GPU削减,不只是省钱,更是省电。一张A100满载功耗400W,少买四张卡,等于每年少开一辆燃油车。对小型开发者更友好:过去租不起整卡,只能排队;现在可以“按Token买座位”,推理成本从每千次0.8美元打到0.15美元,个人开发者也能玩得起175B大模型。Aegaeon把“算力民主化”从口号变成流水单,原来拼单的不止奶茶,还有AI。

技术“魔鬼细节”:池化≠碎片化

共享最怕“吵邻居”,模型A吃显存,模型B就OOM。Aegaeon引入“显存配额+动态驱逐”:每个Token附带“内存预算”,超标即触发“换出”,把冷数据扔到CPU内存,GPU留热数据,显存利用率提升3倍,还保证低延迟。换句话说,拼车可以,但绝不超载;刹车距离,系统早算好。

冷静一角:不是万能膏药

池化适合“轻-中载”推理,训练环节仍需要整卡独占;此外,对延迟极低的金融交易类模型,微秒级切换可能带来“可感知抖动”。阿里云坦言:Aegaeon是“推理侧手术”,不是“全流程仙丹”。降本82%的B面,是场景匹配,用对地方,它才是手术刀;用错地方,仍是屠龙刀。

Aegaeon的出现,把GPU从“包年”变“按秒”,让大模型推理第一次有了“共享充电宝”体验。当成本被拦腰斩断,创意才有机会“腰马合一”,个人开发者可以大胆上线“写诗机器人”,中小企业也能给客服装上175B大脑。AI不是变便宜了,是变“可用”了。10月21日之后,再有人问“大模型贵不贵”,可以淡定回答不贵,已经能拼单了。