AI大模型终于走到了数据争夺战-51CTO.COM

当前，大模型正处在产业落地前期，高质量的数据，是大模型实现产业化的关键要素。

最近，一项来自Epoch AI Research团队的研究抛出了一个残酷的事实：模型还要继续做大，数据却不够用了。

研究人员预测了2022年至2100年间可用的图像和语言数据总量，并据此估计了未来大模型训练数据集规模的增长趋势。

结果表明：高质量的语言数据存量将在2026年耗尽，低质量的语言数据和图像数据的存量将分别在2030年至2050年、2030年至2060年枯竭。

这意味着，如果数据效率没有显著提高或有新的数据源可用，那么到2040年，模型的规模增长将放缓。

对数据端的建设该重视起来了。

1.高质量数据成“抢手货”

随着全球新一轮AI热潮来临，大量训练数据已成为AI算法模型发展和演进的“燃料”。

从GPT的实验发现，随着模型参数量的增加，模型性能均得到不同程度的提高。

但值得注意的是，通过来自人类反馈的强化学习(RLHF)生成的InstructGPT模型，比100倍参数规模无监督的GPT-3模型效果更好，也说明了有监督的标注数据是大模型应用成功的关键之一。

如果以上预测是正确的，那么毫无疑问数据将成为做模型继续做大的主要制约因素，AI的进展也会随着数据量的耗尽而放缓。

阿里巴巴达摩院基础视觉团队负责人赵德丽博士曾在采访中表示，数据侧的建设将会成为每一个做大模型工作的机构必须要考虑的问题，大模型有多少能力，往往取决于有什么样的数据。

据赵德丽博士介绍，与文生图大模型相比，做文生视频大模型要难得多，原因就在于视频数据的数量远比不上文本和图像，更不要谈数据的质量了。相应地，目前已有的文生视频模型的效果都不尽如人意。

结合上述研究结果，如果当下的趋势继续下去，人类现有的数据库存一定会耗尽，而且高质量的数据会更少。

正因如此，一场数据争夺战正在拉开序幕。

目前，Adobe利用其数以亿计的库存照片数据库构建了自己的人工智能工具套件，名为Firefly。自3月份发布以来，Firefly已被用于创建超过10亿张图像，而Adobe股价已因此上涨了36%。

一些初创公司也正在蜂拥至这个新领域。今年4月，专注于人工智能的数据库公司Weaviate融资5000万美元，估值达到2亿美元。

仅仅一周后，其竞争对手PineCone就以7.5亿美元的估值筹集了1亿美元资金。

本月早些时候，另一家数据库初创公司Neon也获得了4600万美元的融资。

在国内，百度智能云近期也升级了大模型数据服务能力，建设了国内首个专业大模型数据标注基地。百度智能云方面表示，目前已经在全国与各地政府合作，共建了10多个数据标注基地。

显然，对数据的争夺才刚刚开始。

2.数据标注再次迎来爆发

AI大模型带来了大量需求，与之相伴的是中国数据标注行业的迅速发展。

招商证券认为，一方面，进入大数据时代后，人们各种行为的电子化、网络化带来海量数据，但产生的数据只有1%能被收集和保存，并且收集的数据中90%是非结构化的数据;另一方面，人工智能的兴起带来模型训练所用结构化数据的巨大需求，数据标注的重要性逐渐突显。

有业内人士认为，预计今年10月国内会迎来一波大的类chatGPT大模型的数据需求，而且这是一个海量的需求，以目前国内几家头部数据标注公司来看，目前产能还不足以满足需求。

艾瑞咨询数据显示，包括数据采集、数据处理(标注)、数据存储、数据挖掘等模块在内的AI基础数据服务市场，将在未来数年内持续增长。

到2025年，国内AI基础数据服务市场的整体规模预计将达到101.1亿元，整体市场增速将达到31.8%(2024-2025年)。

据iResearch数据，2019年我国数据标注市场规模为30.9亿元，预计2025年市场规模突破100亿元，年复合增长率达到14.6%。

随着数据量的不断增长和数据结构的不断变化，数据标注行业涉及的领域也越来越广泛，特别是在自动驾驶、AIGC等领域内，数据标注需求量极大。

作为AI大语言模型高质量回答的基础，数据标注的生产过程主要包括四个环节：设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)。

其中，数据标注需要识别图像、文本、视频等原始数据，并添加一个或多个标签为机器学习模型指定上下文，帮助其做出准确的预测。

当前，大部分数据标注任务仍然需要人工完成，而且各种数据类型和应用领域都需要相应领域的专业标注员来完成标注任务。

随着技术的发展，数据标准行业正在成为半人工智能、半人工化的行业。

面对大语言模型动辄上百亿参数的数据质量控制，需要通过标注平台将一个个复杂RLHF需求拆成很多个简单的工作流，让机器去做预处理，人去做深层的基于理解的反馈，以减少人在简单问题上的精力消耗，专注在专业问题上的标注。

业内一般采用主动质检加被动质检的方式，前者靠人为去做质检，后者是靠算法去做一些预识别。

但目前数据标注工具的准确率部分仅百分之几，部分准确率则可以达到80%、90%。机器标注的识别率越高，人工需求就会越少，成本、利润、速度、质量都能更加可控。

随着技术不断发展，未来数据标注行业可能会实现更高的自动化程度，不过应用领域不同，仍然需要一定数量的标注人员来进行标注任务。

3.传统数据标注亟待升级

值得注意的是，在如今火爆的大模型训练浪潮中，传统的数据标注需求，很可能是下降的。

让ChatGPT更具有“人味”的关键——强人工反馈RLHF，带来的是另一种更高要求的数据标注需求。

相关分析显示，在RLHF环节，模型首先在大数据集上进行预训练，再与专业的人工智能训练师进行交互，专业的标注人员会对ChatGPT生成的回答进行标注、评估和反馈，给出一个针对回答的分数或者标签。

这些标注数据可以作为强化学习过程中的“奖励函数”来指导ChatGPT的参数调整，最终帮助模型进行强化学习和不断优化。

也就是说，让ChatGPT“更具人味儿”的精妙之处很可能就在于——它可以利用人工标注的反馈结果不断优化自身模型，实现更合乎人类思维逻辑的表达。

但传统数据标注模式很难满足RLHF的需求。

在过去，数据标注公司的主流商业模式以销售工具系统和标注服务为主。一方面，缺少自有数据很少有出售精准数据集的服务。另一方面，人才升级作为一个系统工程，对数据标注公司的考验更高。

在完成这一步后，RLHF训练还涉及到不少事实判断和价值判断。其中，价值判断涉及到公认的"公序良俗"，理论上是更容易拉齐AI认知的部分，事实判断则涉及各行业Know-How。

这往往需要行业专业人士出手，不是传统数据标注员，简单针对词性、图片细节进行标注就能实现的。

也就是说，要跟上新一代AI浪潮，数据标注公司不仅需要在数据层面进行升级，人才的更新换代同样重要。

目前的确已有标注公司开始在内部撰写《人员提升教程》，他们将在接下来重点培训标注人员对“升级后”的标注需求理解，以及回答方式的合规性等。

但是，在专业壁垒非常高的医疗等领域，数据标注仍面临着人才困境。

某数据标注公司运营负责人曾表示，“特别是医疗，有些是普通人经过培训可以标的，有的必须要医疗从业者，这背后的人才招聘难度可想而知。”

但即便困难重重，也不意味着数据标注公司会立马进行一波洗牌——至少，在大模型训练的几个阶段内，初始阶段的半监督学习同样对传统数据标注存在需求。

面对大模型和RLHF的机遇，重现大规模投入似乎在所难免。

有业内人士认为，如果数据标注公司期望在垂直领域做更高层级的数据服务，可能要成立一个全新的产品线。甚至，具备AI研发背景的创始人会是更合适的数据标注创业者。

面对新一代AI浪潮，没有人可以躺着挣钱——这是每一次技术迭代冲击背后，暗中标注好的“价格”。