本文作者:蓝狐工商代办

人类最强大脑AI进化饲料

人类最强大脑AI进化饲料摘要: ...

微信号:MD80086
添加微信好友, 获取更多信息
复制微信号

白天,安迪在一所名校数学系攻读研究生,夜晚,他则化身数据标注员,应招国内外各种大模型的标注任务,时薪大概在 150 元~300 元。

当 Deepseek 在 1 月下旬横空出世后,这个工作越来越为外人所知。

Deepseek 被讨论得最多的方面之一是 " 文笔好 "" 情感真 "。一些专家猜测,DeepSeek 团队可能给模型投喂了大量人文社科类数据,还采用高水平的专业人员标注数据,鼓励模型幻觉,激发模型的想象力。

高质量的输出,很大程度上成就了 Deepseek 的增长纪录——上线 7 天用户破亿。

这些与安迪们的工作密切相关。

数据标注,是指将图片、语音、文本、视频等数据处理成满足机器学习训练要求的可读数据编码,即把信息转化为计算机语言供 AI 学习。

华人科学家、"AI 教母 " 李飞飞,最大的贡献之一就是给世界上的海量图像做数据标注,为 AI 建立了标注图像数据集 ImageNet,补上了深度学习的最后一块拼图。

通俗地讲,好比大人教三龄童认识事物的基本概念。大人掌握的知识越多,认知水平越高,解释能力越强,小孩的成长越快,甚至能举一反三,融会贯通。

AI 的进化也是如此,依托算法、算力、数据共同驱动,背后的支柱分别是少数顶尖的算法科学家、海量的算力芯片以及海量的数据标注员。

随着算法差距缩小,算力布局更广,数据的质与量愈发成为 AI 进化的关键。

数据特色会形成大模型的独特风格,比如,美国公司 Anthropic 的 Claude 系列模型 " 很文科且擅长古诗词 ",表达兼具 " 信达雅 ";谷歌的 Gemini 系列模型则更 " 理工科 ",擅长编程。

与过去最基础的数据标识工作(比如标注道路交通标识)相比,安迪们现在更像是给 AI 上 " 奥数课 "。他们为大模型编写原创的数学题,并评估大模型的解题思路与准确性。要胜任此类工作,至少需要本科水平。

安迪所在的 " 我们是 AI 饲养员 " 百人群里,人们很少再讨论 " 人有没有 AI 聪明 " 这类话题。

兼职近半年,安迪每完成一个任务就会 " 小抑郁几天 ",因为 " 很耗神,非常累 "。并且出题难度在增加,部分已经达到研究生以上水平。虽然大模型可能不一定完全正确,但进步速度太快。

今年以来,安迪发现平台任务量没有以前多了,错过一个任务要等一两周—— AI 们可学的东西正在变少。

过去,人工智能行业有 " 有多少人工,就有多少智能 " 的说法,如今,AI 的 " 饲养员 " 已经变成硕士、博士,让人联想到《三体》里那句话:这是人类的落日。

甲骨文的供养

清华大学博士后冯聪,从 2023 年 7 月开始接触 AI 标注工作。

她的专业为甲骨文研究,博士后阶段交叉学习了计算机科学。甲骨文研究是一个冷门专业,一般会在考古现场或是某个博物馆工作。

ChatGPT 爆火后,AI 圈内流行一个说法:ChatGPT 性能较好的原因之一是他们招聘了 50 个领域的专家做标注。

在此之前,最常见的数据标注项目是自动驾驶类,标注员要为道路标识 " 拉框 "" 打标 ",一天完成几百个,以分为单位计件报酬,部分地区日薪刚过 100 元。

以大模型为代表的生成式 AI,要求更高。经过专业人才 " 投喂 " 后,模型数据会变得更干净,算法会有更好的血脉,AI 生成的内容更符合人类审美。

冯聪在清华上学时的一位老师创办了面壁智能,目前这家公司已经成为 AI 领域的头部公司,去年融资数亿元。

2023 年 7 月,面壁智能组建智能数据标注团队,大量招聘高学历人才,冯聪便加入了。

当时,高学历的 AI 标注员非常稀缺,没有人知道用什么样的数据、如何进行标注能取得好的效果。即使是同样的数据,标注的人和方式不同,模型生成效果相差极大。

冯聪从自己最熟悉的古文字着手,一点点找到了生成式 AI 的标注门道。一开始,大模型只能学习 10% 的古文字,标注半年后,大模型基本能识别并生成喂进去的所有古文字。

" 数据标注就像培养孩子一样,有人精心培养,有人野蛮生长。这两年已经普遍到了精心培养阶段。" 冯聪告诉经济观察报,现在稍微知名些的 AI 公司,都培养了自己的高学历 AI 标注员。

冯聪的高光时刻,是 2024 年斯坦福大学抄袭事件发生时。当时斯坦福大学一个 AI 团队发布了新模型,宣称性能顶尖且成本极低。面壁智能算法工程师发现,该模型与面壁的模型很相似,但这个怀疑很难被证实,因为算法代码相似的情况很常见。

冯聪发现了铁证。她标注的清华简(战国竹简)数据被上述斯坦福大学团队用到模型里,而这一数据集属于面壁智能的独家内容。最终,这几个斯坦福大学学生承认了抄袭。这件事也让面壁智能登上热搜。

做 AI 标注,时不时会让人感到枯燥乏味。不过冯聪之前做的甲骨文学术研究,同样是枯燥的。现在,AI 为这种古老文化注入了新的灵魂,令她深受触动。

一位 70 多岁的甲骨文权威教授对她说,几千年的东西,与 AI 结合起来,更能擦出火花。

数据 " 蚁族 "

早上 10 点,三水已坐在电脑前,挥舞鼠标,指挥千里之外的标注人员开展工作。

三水是某 "211" 大学研究生,具有垂类行业经验,几个月前转行进入一家估值几十亿美元的大模型初创公司做数据标注,他的岗位叫 "AI 数据专家 "。

三水告诉经济观察报,有上千名标注员为这家公司服务,绝大多数由项目经理管理,完成简单任务,如标注情感倾向、标注地名人名、去除无用信息等。

与三水合作的垂类行业标注员不到 10 人,多为有相关行业工作经验的人,他们既具备专业知识,又懂标注和文本编辑。这类人才稀缺,考核标准相对宽松,每人每天很可能只能完成 3~5 项任务。

标注员常常像分析师一样撰写答案,每条任务都是一篇专业作文。这些内容不能出丝毫差错,微小差异也需查证专业书籍或由业内专家判断。

这些标注数据并非直接展示给用户,而是作为语料供算法工程师训练,通用类数据让大模型变得更智能,垂直类数据则使其更专业。

刘到闲在一家大厂担任语音类产品的 AI 数据专家,她是某 "985" 大学语言学专业研究生。该产品核心目标是 " 让 AI 语音更像人——能共情、情感充沛且理解力强 "。

她的工作有三部分:分别是制定标注规则、监测人员效率和完成率、在上千条标注数据中抽样 10% 验收检查。有时候,她自嘲自己像一个 " 数据包工头 "。

刘到闲团队对该模型的评价维度超过 20 个,包括避免字词错误,保证文本流畅、上下文关联,保证语音自然、无发音错误,以及具备情感表现力等。

如何制定标注规则?以 " 语音不自然 " 为例,她需要评估语音的韵律、节奏、音质、声音抖动,甚至用工具查看声音波形图;而解决 " 情感不足 " 问题,最基础的要求是语气一致性,比如不能用悲伤的语气说 " 我很开心 ",更深入的要求是能识别用户情感,AI 的回复要表达共情和安慰。

相比医疗等垂类的专业难度,这类音频标注工作更简单,但考核也更为严格。如果标注员乱打分,误差大或者人效低,AI 公司会更换供应商。

标注员的工作类似 " 工蚁 "。务分发后,他们会在系统上看到两条持续 5 秒到 2 分钟不等的音频,需反复听并按要求打分评价。这类中等难度的工作,每天需至少完成 200 条;如果是更简单的任务,一天要完成超过 1000 条。

服务这两家公司的全职标注员,都有上千人,他们绝大部分来自外部数据供应商。这些数据供应商大多分布在河南、湖南、山西等省份的三四线城市。从十年前的智驾、智慧城市类 AI 标注开始做起,随着最近几年生成式 AI 标注需求陡增,这些数据供应商也开始转行。

入行久、信誉好的数据供应商,其员工素质相对较高。据三水了解,这些标注员在当地的工资相对较高,有些能拿到 5000 元以上,也吸引当地不少本科生、硕士生。

中国信通院报告指出,随着人工智能巨头的崛起,数据标注和采集需求激增,市场在 2015 年开始形成。此后,谷歌的 AlphaGo 横空出世,人工智能开始商业化探索,数据标注等服务也迎来了一个发展高峰。

2020 年,数据标注师被正式纳入国家职业分类目录。2021 年,《人工智能训练师国家职业技能标准(2021 年版)》发布,数据标注员是人工智能训练师的工种之一。

冯聪称,事实上,普通用户也在无形中成为 AI 的训练者。目前国内已经有多个产品的月活用户在 3000 万以上,用户每次的修正或者反馈,就是一次标注。

看得见的天花板

三水所在公司的 AI 数据专家分为医学类、金融、法律等领域,此外还有一类叫生活类专家。招聘要求一般是 985 和 211 研究生及以上水平。

如果有丰富的垂类经验,也会适当放宽学历标准,三水说:" 其实是看你有没有积累。"

DeepSeek 在 Boss 直聘上也有类似的岗位,名为 "AGI 数据百晓生 ",岗位介绍中的一条是 " 涉猎广泛、博闻强识,对各行各业的知识都拥有强烈的兴趣 "。这一岗位的正式工资在 1.5 万元 / 月~3 万元 / 月之间。

三水说,这个工作吸引他的原因有两方面,一是比以前的工资高,每月在 2 万元左右;二是氛围较好,想法会被尊重,团队愿意放手让员工去尝试。

在大公司中,经常会出现歧视外包标注员的情况。但在这家公司,创始人对数据极为看重,会和标注员一样坐在电脑前做标注。

虽然如此,三水对这份工作的前景并不乐观。

他和刘到闲都把自己比作一块电池,把数据标注的工作比作 " 持续放电 "。三水说:" 即便人充电的速度再快,也赶不上 AI 消耗你的速度。"

在三水看来,AI 的智能水平已经超越了大多数普通人。从技术角度来看,垂类数据有限,这一领域的从业者会更快触到天花板。他已经做好再次转行的心理准备。

刘到闲最近的岗位调整验证了这一点,她回到了基座模型团队。很大的原因是公司的大模型能力发展迅速,在数据上没有太多探索空间。今年以来,她的领导每一次周会都会反复质问:数据专家的价值是什么?

高学历 AI 标注员或许不缺转行机会。他们在一家 AI 公司真正工作过,与算法工程师、产品经理每天打交道,会很清晰地知晓 AI 生成的逻辑与流程。目前,熟悉 AI 行业的人才仍是稀缺的,冯聪带过的 AI 标注员,不少人跳槽到字节跳动、百度等互联网大厂,直到现在,仍有不少猎头私信挖人。

在进入 AI 行业前,三水和刘到闲都长期思考过 "AI 与人类的关系 "。刘到闲在本科期间就对 AI 产生了较大的兴趣,曾经想攻读计算语言学方向的博士,一度相信语言学的训练方式会让智能涌现。

工作近 2 年后,刘到闲更多感觉到被琐碎的工作、复杂的人际沟通 " 困住 ",自比 " 流水线 " 上的女工、建筑工地的 " 包工头 "。有时,她意识到自己正身处 AI 最靠近未来的地方,会生发感慨。但这种念头转瞬即逝,她还得回到现实。

" 这只是一份工作而已。" 三水说," 我不担心‘教会 AI,饿死人类’,AI 和人类已经不在同一维度了。即使不被 AI 替代,也会被年轻人替代。人们到底在焦虑什么、担心什么?"

(应受访者要求,安迪、三水、刘到闲为化名)

本文来自微信公众号:经济观察报 (ID:eeo-com-cn),作者:周悦、任晓宁,题图来自:视觉中国

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享

发表评论

快捷回复:

评论列表 (暂无评论,6人围观)参与讨论

还没有评论,来说两句吧...