DeepSeek在国际期刊《Nature》论文中正面对模型蒸馏的质疑进行回应
- 科技快讯
- 1天前
- 11热度
9月18日,国内大模型阵营里一向“人狠话不多”的 DeepSeek,突然用一句“我们没有故意加合成数据”把自己送上热搜。原因无他,团队最新论文登上《Nature》封面,首次在学术语境里正面回应了此前“是否蒸馏 OpenAI”的漫天质疑。声明很短,却信息量爆炸。预训练语料里确实没往锅里“加味精”(合成数据);
但网页本身已被别人的“味精”腌过,锅里的汤难免带点味儿。我没偷,但菜市场里全是调好味的菜,我也没办法。这场看似“技术自证”的回应,其实揭开了整个大模型江湖的隐痛:当互联网被AI生成的答案反复刷屏,所谓“纯净语料”还有没有可能?
“蒸馏”原罪:为什么大模型最怕被说“偷知识”
在AI圈,“蒸馏”并不是贬义词,把大模型当“老师”,让小模型学“学生”,既能省算力又能保效果,教科书里管这叫知识迁移。可一旦涉及商用,味道就变了:若学生成绩全靠抄老师,版权、许可、商业闭源协议全成了雷区。OpenAI 的服务条款明确禁止用其输出去训练竞品,于是“是否偷蒸”成了道德与法律的双重高压线。此前外界对 DeepSeek 的质疑集中在两点:一是能力涨得太快,二是某些风格“有GPT味”。这次论文相当于把训练日志摊给审稿人:你们闻到的香味,不是因为我加了料,而是菜市场本身就被料腌过。
数据“腌入味”:互联网已被AI反刍成“二手火锅”
论文给出一组“扎心”数字:CommonCrawl 2023-24 快照里,约 4.7% 的英文网页、2.1% 的中文网页,经检测带有“高概率模型生成”指纹。更尴尬的是,这些页面往往质量更高——结构完整、逻辑顺滑、事实错误更少,清洗流程里很难直接砍掉。结果就是:即使 DeepSeek 老老实实“只爬网页”,仍把别人的“蒸馏残汤”一并喝进肚子。用作者的话说:“我们就像考古学家,挖到的陶片早已沾上前人调料,只能尽量冲洗,却无法回到新石器时代。”
“没加合成”≠“没受益”:学术诚实与商业现实的拉锯
Nature 审稿人罕见地要求 DeepSeek 补充“潜在受益”声明,于是论文出现一段“自我打脸”:虽然预训练阶段零合成,但模型在 RLHF(人类反馈强化学习)环节,确实用了部分外包标注数据,而外包公司坦言“参考了闭源模型回答”。换句话说,老师没进教室,但学生的教辅里全是老师写的参考答案。DeepSeek 承认这一点,并承诺未来把“标注来源”写进数据表,做到“每滴汤都能追溯到锅”。这种“半裸奔”姿态,在习惯“报喜不报忧”的业界堪称清流,也逼得同行开始自查:谁的语料敢保证 100% 无 AI 味精?
监管“灰犀牛”已抬头:不是“我说没偷”就能结案
就在论文发表同一天,欧盟《AI Act》最新草案把“使用模型生成数据训练”列为高风险场景,要求企业提供“来源审计报告”。美国版权局也启动调查,拟厘清“AI输出是否享有版权”以及“二次训练是否侵权”。趋势很明显:以后不是“开发者说自己干净”就过关,而是要像食品标签一样,把配料表贴在模型身上。DeepSeek 抢先一步“自曝”,某种程度上是在为即将到来的“合规海啸”买保险,与其被监管打脸,不如主动把脸伸出来,至少还能落个“态度好”。
DeepSeek 在 Nature 封面的“自证”,没有豪言壮语,只有一句“我没故意加料,但料确实在菜里”。它把“蒸馏疑云”从江湖吵架升级到学术自审,也把整个行业推向“后纯净时代”的门口:当互联网变成二手火锅,模型开发者必须成为“食品安全员”,每勺汤都要贴配料表,每份数据都要留审计链。监管正在收紧,资本正在学乖,用户也在变精。未来,或许不会再有“一夜暴火”的神话,只有“步步为营”的透明。