DeepSeek V3爆火背后：“AI界拼多多”能否复制？

界面新闻记者 | 伍洋宇李彪
微信号：MD80084
添加微信好友, 获取更多信息
复制微信号
界面新闻编辑 | 文姝琪

2024年底，DeepSeek（深度求索）再次凭借模型性能在行业中掀起一个小高潮。

这家独立于大模型“六小虎”格局之外、不容行业所忽视的公司，发布了新一代MoE模型DeepSeek-V3首个版本并同步开源。V3拥有6710亿参数，其中激活参数为370亿，在14.8万亿token上进行了预训练。

从DeepSeek公开披露的信息来看，在知识类任务（MMLU, MMLU-Pro, GPQA, SimpleQA）上，V3接近当前表现最好的Claude-3.5-Sonnet-1022，在代码能力上同样稍好于后者，而在数学能力上，V3已明显领先其他开闭源模型，包括Qwen2.5 72B-Inst，LIama3.1 405B-Inst，GPT-4o 0513。

这已经是一个足够好的开源模型，但真正让其受到大量关注的，是DeepSeek在技术论文中表示，DeepSeek-V3模型总训练成本为557.6万美元，完整训练消耗了278.8万个GPU小时，几乎是同等性能水平模型训练所需十分之一。这让它在海内外再度爆火。

事实上，大模型在2024年第一场API价格战正是由DeepSeek开启。彼时，其“MoE架构+MLA（Multi-head Latent Attention）技术”在降低大模型使用成本上发挥了重要作用。如今看来，这项创新在DeepSeek手中完成了稳定延续。

至此，同行业的大模型厂商更需审慎对待这家作风低调、输出稳定的公司，不知何时，它就会发起一场商业奇袭。

“AI拼多多”模式能否复制

根据海外调研机构SemiAnalysis的数据，OpenAI GPT-4训练成本高达6300万美元，而DeepSeek-V3只有前者十分之一不到。这让行业首先开始思考这种低成本模式是否可复制。

自从英伟达高端GPU显卡在中国大陆遭禁后，算力不足始终是摆在国内AI公司面前的一大难题。

相比于国外微软、Meta、特斯拉等科技巨头动辄购入10万张英伟达显卡搭建算力中心训练AI模型，国内拥有1万张以上显卡的公司屈指可数。DeepSeek背后的开发公司幻方就是其中之一，2023年在接受36氪专访时，幻方创始人梁文锋称“公司已囤有1万张英伟达A100显卡”。

而DeepSeek-V3此次的特别之处在于仅用少量卡就完成了模型训练。

据官方论文介绍，DeepSeek-V3训练使用了2048张英伟达H800 GPU（注：H800GPU为H100 GPU被禁后面向中国大陆推出的特供版，性能约为其一半），这些GPU通过英伟达高速互联网络NVLink和InfiniBand连接搭建成AI算力集群。

作为性能对标模型，Meta旗下的开源模型Llama-3.1（模型参数量与训练数据大致相当）则动用了超过16000张英伟达H100GPU，业内估计训练成本高达数亿美元。

Meta AI科学家田渊栋在X（原推特）平台上盛赞DeepSeek V3的低成本训练方法是“黑科技”。特斯拉前人工智能和自动驾驶视觉总监、著名AI研究学者Andrej Karpathy转发了DeepSeek的论文，并评价说“如果DeepSeek V3能够通过各项评估，就证明了在资源有限的情况下，开发出性能强大的大语言模型是有可能的”。

目前，降低AI模型开发成本已经是最重要的行业趋势之一。过去一年，OpenAI仍然未发布行业期待已久的下一代模型GPT-5，而是发布了GPT-4o、4o mini等一系列低成本的轻量化模型。山姆·奥特曼（Sam Altman）也表示，部署和维护高级AI模型造成了OpenAI的运营成本不断上升，无论是出于公司持续运营的需要，还是实现AI人人可用的目标，都需要进一步降低成本。

而对于国内来说，先进算力受限国内AI公司必须直面的现实。

从2023年开始，国内掀起了智算中心的基建热潮。但由于当前国产GPU在单卡性能不足，与英伟达产品相比至少存在1至2代的差距，国内建设智算中心时需要通过堆更多的GPU来实现所需的算力，这不仅加大了建设难度，又进一步拉高了成本。一位参与过国产智算中心建设的AI公司负责人曾告诉记者，目前真正有能力建设万卡智算中心的厂商寥寥无几，国内算力建设的首要目标仍然增加供给，保障“能用”。

如何在算力受限的情况下降低模型成本，DeepSeek的“AI拼多多”模式给行业提供了一种可能。

根据DeepSeek开发团队介绍，V3模型采用了模型压缩、专家并行训练、FP8混合精度训练等一系列创新技术降低成本。这些技术对于行业探索一条低成本的训练模式具有借鉴意义，但要复制并不容易。

国内一家AI芯片公司创始人告诉记者，DeepSeek这次用到的FP8训练技术是一个亮点。FP8是一种使用8位浮点数表示的格式，相比于传统的16位（FP16）和32位（FP32）浮点数，FP8是一种新兴的低精度训练方法，通过减少数据表示所需的位数。显著降低了内存占用和计算需求。目前除了DeepSeek，国内公司如零一万物，国外的谷歌、Inflection AI都已将这种技术引入模型训练与推理中。

上述芯片公司创始人称，引入FP8后，也有可能导致模型计算导致在某些情况下精度不足，造成性能不稳定，需要开发团队去进一步调优。“FP8接下来很有希望成为一种行业趋势，会有更多的算力芯片厂商提供原生的FP8算力”。

另一位GPU芯片公司CEO认为，DeepSeek V3作为DeepSeek第三代模型，模型开发本身涉及大量的计算资源和数据支持，而幻方能够为其储备上万张英伟达显卡用于算力基建，这对许多中小型团队或公司来说都是一个障碍。

但在他看来，最核心、也最难复制的是人才储备。DeepSeek核心架构用到的技术都具有相当高的创新门槛，前期开发和后期的调优升级都需要人才积累。

DeepSeek在人才储备上也独具特点。据创始人梁文峰此前接受采访时介绍，DeepSeek V2模型的开发团队没有海外回来的人，都是一批本土的“Top高校的应届毕业生、没毕业的博四、博五实习生，以及些毕业才几年的年轻人”，小米近期被报道以千万年薪招聘DeepSeek研究员、V2模型的开发团队成员罗福莉直接证明了这些年轻人才的价值。

梁文峰称，顶尖人才在中国是被低估的，而正因为DeepSeek“做最难的创新”，创新对于顶级人才具有特殊的吸引力。