沈向洋：合成数据是未来模型训练的重点

蓝狐 11-22 12 抢沙发

默认

摘要： ...

过去几年，人们广泛谈论人工智能“三件套”——算力、算法、数据。11月22日，在2024 IDEA大会上，IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋表示，三年前推出的GPT-3用了2T数据，GPT-4经过不断训练实际上使用了20T数据，如果未来推出GPT-5，数据量会达到200T级别的规模。但互联网上已经找不到如此多的数据，未来的重点是如何合成新的数据来训练模型。

微信号：MD80086
添加微信好友, 获取更多信息
复制微信号

IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋。

沈向洋表示，计算行业过去四五十年的发展中，最重要的一件事就是算力不断提升，在摩尔定律之下，每18个月算力几乎增长一倍。随着人工智能的蓬勃发展，特别是深度学习的发展，算力需求变得更大，算力成为生产力。在大模型时代，“首先模型本身很大，参数量非常多，以前百亿参数，现在千亿参数、万亿参数，大模型一直往前走，问题不单单是参数大了以后模型大，对训练的要求高，要能训练这样的模型，数据量也要增长。从某种意义上来讲，要把性能提升，对算力的需求呈现出跟参数的平方关系，这对算力的需求是非常庞大的。”从“摩尔定律”发展到“黄氏定律”（以英伟达首席执行官黄仁勋的名字命名的定律，其预测GPU将推动AI性能实现逐年翻倍），沈向洋打趣道，过去一年他常挂在嘴边的话是“讲卡（芯片）伤感情，没卡没感情”。

2017年Transformer架构推出后，人工智能、深度学习、大模型基本上沿着Transformer条线堆数据、堆算力。OpenAI今年最新推出的o1系列模型，推理学习能力提升。“永远不断有聪明的人做聪明的算法，不断有突破，方法的范式转移是非常值得我们认真思考的。”沈向洋表示，范式变革就是增强学习。增强学习并非新事物，但今天新在打法通用，以前做一个系统只能解一个问题，如今o1模型可以编程、处理物理和化学问题。就像人在思考一样，以前的打法是快思考、一问就答，现在不完全是训练，给出答案时还有一个后训练、后推理的过程。“很像考试时做数学题目，先打个草稿，看看这条路对不对，不对就再倒推另外一条路。”

“过去这段时间，大模型蓬勃发展，不仅仅是大模型、大参数，很重要的一件事情是：数据多。”在数据方面，沈向洋表示，三年前推出GPT-3时用了2T数据，GPT-4经过不断训练，实际上使用了20T数据。“一个T就是万亿，1万亿数据大约等于500万本书，或者等于20万张高清照片，或者等于5000万篇论文。人类历史上到现在为止到底创造了多少本书？大概也就是21T。”

如果未来推出GPT-5，他认为数据量会达到200T级别的规模，而互联网上已经找不到如此多的数据，正如o1模型的强逻辑性合成数据，未来的重点是如何合成新的数据来训练模型。IDEA团队自研了语境图谱技术，解决过往文本数据合成方案的多样性匮乏等问题。该技术为合成数据引入“指导手册”，以图谱为纲，指导用于合成的语境采样。实验结果显示，IDEA团队的方案能持续为大模型带来能力提升，表现超过目前的最佳实践（SOTA）；从token消耗来看，平均节约成本85.7%。目前，该技术内测平台已开放，通过API提供服务。

在本次大会上，IDEA研究院还发布了DINO-X通用视觉大模型，实现开放世界（Open-world）目标检测，无需用户提示，直接检测万物。计算机视觉技术在真实世界的应用场景十分广泛，但过去主流的小模型方案难以应对碎片化、多变的长尾需求，限制了技术落地规模。源自自然语言研究的Transformer架构诞生后，视觉模型与之结合，走上一条“从小变大，从N变1”之路。与此同时，IDEA推出行业平台架构，通过一个大模型基座，结合通用识别技术结合，让模型不需重新训练，就可边用边学，支撑多样的B端应用需求。

视觉感知是机器与物理世界交互的基础。全场景视觉感知能力的提升为技术落地拓宽空间。在具身智能领域，IDEA研究院宣布与腾讯合作，在深圳福田区、河套深港科技创新合作区落地建设福田实验室，聚焦人居环境具身智能技术；与美团合作，探索无人机视觉智能技术；与比亚迪合作，拓展工业化机器人智能应用。

与此同时，沈向洋表示，从ChatGPT的推出到火爆可以看到，它跳过了PMF（产品市场匹配度）阶段。技术要在持续不断的反馈和创新中与市场完成匹配（Technology-market fit，TMF），技术到了一定地步就做成了TMF。

文章版权及转载声明

作者:蓝狐本文地址：http://daiban08.com/post/19435.html发布于 11-22
文章转载或复制请以超链接形式并注明出处宜春市宿贝商贸有限公司_电商代办营业执照_代办工商营业执照注册_电商营业执照代办_个体工商户营业执照代办

打赏