国产GPU类脑大模型问世 “瞬悉1.0”让超长文本推理提速十倍
- 科技快讯
- 5天前
- 28热度
9月8日,中国科学院自动化研究所官宣李国齐、徐波团队联手国产GPU公司沐曦MetaX,推出类脑脉冲大模型“瞬悉1.0”。它在一千张国产加速卡上完成训练与推理,不依赖Transformer结构,却在超长序列任务上实现数量级提速。消息一出,AI圈瞬间刷屏。“非Transformer架构”第一次在中国千卡集群里跑通全流程,而且芯片、框架、模型全部自主可控。
一条新赛道:像大脑一样“脉冲”推理 今天的大模型几乎等于“Attention+堆算力”。文本越长,计算量呈平方级膨胀,推理慢、显存贵、电费高。团队回归脑科学,提出“内生复杂性”理论:让网络自身产生时间维度,用稀疏脉冲传递信息,只在需要时“点火”。
国产千卡GPU扛下全流程 训练大模型,卡是硬道理。沐曦MXC500加速器采用7nm工艺,FP16算力560 TFLOPS,支持脉冲计算需要的超低延迟通信。研究团队把核心算子重写进沐曦自研指令集,实现“脉冲发放”与“梯度回传”在硬件级同步。结果:同样长度10万字符的文档,瞬悉1.0推理延迟从传统Transformer的2.3秒降到0.21秒,显存占用仅为1/8。国产芯片第一次在非Transformer大模型上跑完“训练-推理-部署”闭环,不再依赖A100。

模型效率提升的同时,能耗也大幅下降。脉冲驱动只在神经元激活时消耗电流,整卡平均功耗下降42%,千卡集群一年可省电费超千万元。生态开放:框架、模型、芯片全链路开源 团队宣布,9月底将开放脉冲训练框架“BrainPy 2.0”国产GPU适配版,同时放出瞬悉1.0 Base模型权重与千卡并行脚本。开发者无需重写底层代码,只需调用高阶API即可把现有Transformer模型“脉冲化”。沐曦也承诺向高校、研究所提供云算力券,目标一年内部署1000个国产脉冲模型。
对普通人的影响:更快更便宜的AI服务 瞬悉1.0瞄准的第一个落地场景是“长文本AI助手”。律师阅卷、医生读病历、分析师看财报,常常面对几十万字材料。脉冲架构推理成本降低一个量级,意味着聚合问答、摘要生成可以实时完成,而不再排队。未来搭载该模型的企业级API调用费有望降到现有的一半以下,普通用户也能用更低价格享受“秒级”长文档总结、代码库搜索等服务。
从Transformer一家独大到“类脑脉冲”百花齐放,国产GPU第一次跑通非Transformer大模型全流程,证明“不堆算力、不堆Attention”同样能做大模型。瞬悉1.0像一条鲶鱼,冲进被GPU与电费裹挟的赛道,把“长序列推理”这条曾经昂贵的技术路线,拉到平民价位。