本文作者:蓝狐工商代办

DeepSeek的“蒸馏模型”超越原创?美国要对“蒸馏技术”下手

DeepSeek的“蒸馏模型”超越原创?美国要对“蒸馏技术”下手摘要: ...

微信号:MD80084
添加微信好友, 获取更多信息
复制微信号

中国人工智能初创公司 DeepSeek 在过去一周成为硅谷热议的对象,并触发了本周一美国科技股 " 崩盘 "。

1 月 29 日,OpenAI 最新称,它发现有证据表明中国人工智能初创公司 DeepSeek 使用其专有模型来训练自己的开源模型,并暗示这可能违反了 OpenAI 的服务条款。但 OpenAI 没有进一步列举哪些证据。OpenAI 的服务条款规定,用户不能 " 复制 " 其任何服务或 " 使用其输出来开发与 OpenAI 竞争的模型 "。

一种 " 常见技术 " 引发争议

与 Meta 的 Llama 开源模型可免费使用不同,OpenAI 的模型系统是封闭的,但个人用户仍可付费接入其编程接口(API)获取数据。截至发稿,DeepSeek 尚未予以回应。

此前,美国政府称正在组织专家紧急评估 DeepSeek 的技术及影响。美国白宫 AI 和加密货币事务负责人大卫 · 萨克斯(David Sacks)表示,未来几个月,美国领先的人工智能公司将采取措施,试图防止其他公司对 " 蒸馏技术 " 的获取。

DeepSeek 模型取得的技术突破已经引起美国总统特朗普的关注。特朗普周一表示,DeepSeek 这款中国 AI 应用程序应该成为美国公司的 " 激励因素 ",他表示:" 如果中国业界能够开发出更便宜的人工智能技术,美国公司也会效仿。你不必花费数十亿美元,而是花更少的钱,希望找到相同的解决方案。"

数据蒸馏是一种业内常见的技术做法,是指通过一系列算法和策略,将原始的、复杂的数据进行去噪、降维、提炼等操作,从而得到更为精炼、有用的数据。数据蒸馏的目的是将复杂模型的知识提炼到简单模型。

据 DeepSeek-V3 的技术文档,该模型使用数据蒸馏技术生成的高质量数据提升了训练效率。通过已有的高质量模型来合成少量高质量数据,作为新模型的训练数据,从而达到接近于在原始数据上训练的效果。

" 以前的大模型训练相当于使用题海战术,在大量的数据中训练。而蒸馏就相当于让在题海战术里磨练过的优秀大模型充当新模型的老师,筛选出有效题目,再让新的大模型训练。" 一位计算机研究人员这样解释。

不过此前有学者认为,蒸馏技术存在 " 隐性天花板 ",它虽然可以提高模型训练效率,但借此开发的模型无法超越基础模型的能力,当考虑到需要将能力扩展到新领域或应对以前从未见过的挑战时,这种限制就愈发成为问题;而且这种技术在多模态数据方面效果不好。

而 DeepSeek 的模型从某种程度上打破了这种业内普遍存在的观念,其大模型的水平已经能与原始的基础模型相提并论。这是引发美国担忧的根本原因之一。就在 1 月 28 日凌晨,DeepSeek 发布了最新视觉模型 Janus-Pro,在多模态理解和文生图指令遵从能力都收获了显著提升,并在多个基准上超越了 DALL-E 3 与 Stable Diffusion。

英国伦敦大学学院(UCL)名誉教授和计算机科学家彼得 · 本特利曾在接受采访时称:" 蒸馏技术对一些不具备 OpenAI 或谷歌这样巨额研发预算的小型机构的研究进展将会产生重大影响。"

" 蒸馏模型 " 何以超越原创?

一位美国科技巨头公司 AI 相关项目开发人员对第一财经记者表示:" 我并不认为蒸馏类似 Llama 这样的开源模型有什么问题,尤其是像 DeepSeek 这样在蒸馏后采取开源的模型,其实是有存在的合理性的,这样能加速大模型的迭代,没有必要所有的公司都从头开始训练大模型,这会导致资源的浪费。"

他还表示,全球很多 AI 初创公司也同样使用多种大模型的蒸馏融合技术,形成了所谓的 " 多专家模型 "(MoE),这样的蒸馏模型是有可能在性能方面超越原始模型的,因为它有更强的泛化能力,得到的信息更加丰富,提升最终性能。

" 这就好比你有一个团队,里面有本科生、研究生、博士生、工业界初级工程师、资深工程师,当你遇到问题时,可以把不同难度的任务分派给不同的’专家’。这样会以最高效的方式给出最匹配的答案。" 他解释道。

上述人士分析称,关键的核心问题不在于 DeepSeek 蒸馏了其他大模型,而是为何同样是在蒸馏开源模型的基础上,DeepSeek 能够脱颖而出,以如此低廉的成本价格就能实现如此高的性能,并不是所有的公司投入这些资源后都能够实现的。

他认为,DeepSeek 完美平衡了多专家模型、训练时长,预训练、后训练等工作,使得投入和产出达到一个最高效的值。" 当你做得好到对别人有威胁了,总会有一些官司找上门。" 他表示。

但也有 AI 研究人员指出,过度依赖蒸馏技术的 " 捷径 ",会导致研发人员为了快速取得成果而放弃对基础模型的探索。上海交通大学副教授刘鹏飞曾在一篇学术报告中提到:" 蒸馏技术为在数学推理任务中取得显著性能提升提供了一条诱人的捷径。虽然这种方法带来了直接且可见的好处,但它掩盖了一系列深刻的挑战,无法提出根本性的解决方案。"

( 本文来自第一财经 )

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享

发表评论

快捷回复:

评论列表 (暂无评论,8人围观)参与讨论

还没有评论,来说两句吧...