为什么说数据是人工智能的基础

人工智能 机器学习
大多数数据都没有标注是非结构化数据,而人工智能训练需要的是计算机可以读懂的结构化数据。带标签的数据,意味着标注或注释目标模型的数据,以便可以进行训练、预测。

  什么是数据标注?

大多数数据都没有标注是非结构化数据,而人工智能训练需要的是计算机可以读懂的结构化数据。带标签的数据,意味着标注或注释目标模型的数据,以便可以进行训练、预测。通常,数据标注包括数据标注、注释、审核、分类、转录和处理。标注的数据是为了突出显示某些特征,并根据这些特征对其进行分类,通过模型分析其模式以预测新的目标。

数据在人工智能项目中占用多少时间?

训练机器学习和深度学习模型,需要丰富的数据,以便将其用于部署,训练和调整模型。训练机器学习和深度学习模型需要大量经过仔细标注的数据。标注原始数据并准备将其应用于机器学习模型和其他AI工作流,被称为数据标注。根据相关统计,数据整理在AI项目中消耗了80%以上的时间。通常在一个人工智能项目中,数据的需求也分3次左右,第一次是在项目开始的验证阶段,需求数量量比较小,需要确定可行性及规则;第二次是项目正式启动,需要大量的数据对模型进行训练;第三次是在训练并验证完成后,对一些不满意的地方进行训练集的补充,以达到预期的目标。下图是在人工智能机器学习项目中各个任务的时间占比。

 

为什么说数据是人工智能的基础

 

数据标注在人工智能中的成本占比多少?

与数据相关的机器学习成本主要表现在数据集方面,包括数据集的采集、清洗、数据的标注等。Dimensional Research 代表 Alegion 所做的一项最新研究表明,所有组织中的 96%都遇到了与训练数据质量和数量相关的问题。同一项研究表明,大多数项目需要超过 100,000 个数据样本才能表现良好。

 

为什么说数据是人工智能的基础

 

Dimensional Research 研究的图表说明了公司在数据方面面临的最常见的一些问题。

如果还没有数据,可以假设能够在大约一个小时内收集 5–10 个样本并对它们进行标注。利用 亚马逊的 Mechanical Turk 之类的服务来验证整个项目过程,生成 100,000 个合格样本数据集的话,花费大约为 70,000 美元。

如果已经收集了大量数据,则可以使用专业的数据标注服务公司来对其进行标注。在这种情况下,获得 100,000 个带有标签的数据样本,则可能需要花费 8,000 到 80,000 美元的费用,具体的需要取决于标注的复杂程度。

此外,检查和校正数据样本与生成和标注数据样本一样耗时。Dimensional Research 研究报告中提到,66%的公司在其数据集中遇到偏差和错误问题。有些公司选择采用完整的内部方法(自己做所有标注),也有一些公司会选择外包和内部混合使用。第二种常见的情况是将大部分工作外包,然后由公司个别人员负责验证和清理。外包 10 万个数据样本的初始成本可能会增加大约 2500 至 5,000 美元。

除了数据成本外,还有算法人工成本、算力设备成本、项目落地成本。除去附加项成本和一系列功耗所带来的成本,机器学习项目可能会使公司花费 51,750 美元至 136,750 美元(不包括难以确定的其他成本)。价格差异主要是由数据的决定的。这是一个非常乐观的估计。如果企业位于美国,并且使用的是优质的数据(自由职业者不会这样做),则与人才相关的费用将激增,使人工智能机器学习项目的费用超过 108,500 美元。

这样高昂的价格使想要解决新问题或让其流程自动化。决策的个人、小型团队和初创企业无法使承担。

数据处理中最难的是什么?

最艰难的步骤是第一步:获取数据。没有数据,几乎不可能在研究阶段验证机器学习解决方案,从而导致项目进度几乎无法进行。

随着工业、医疗、安防、教育、金融等领域意识到未来人工智能对于行业改变的重要性,都纷纷入局开发自己的人工智能应用,但是随着这些领域越来越重视数据保密性及数据的安全性,这些因素都可能会导致人工智能研究的私有化。人工智能逐渐趋于私有化确是事实,在这个大环境之下,数据标注服务、训练模型平台、算力设备等都已经研究出各自的私有化部署的解决方案。

 

 

责任编辑:华轩 来源: 今日头条
相关推荐

2017-12-07 10:46:04

人工智能自然语言处理

2022-07-12 11:17:54

人工智能首席信息官

2017-12-13 12:44:07

人工智能技术AI

2020-11-03 10:45:53

人工智能AIAI偏差

2020-12-18 13:22:33

人工智能算法

2018-07-03 11:26:31

人工智能工业革命科技

2023-05-05 14:02:59

人工智能聊天机器人

2023-08-01 14:59:35

人工智能合成数据

2015-12-09 14:32:51

人工智能

2022-06-14 10:33:08

物联网智能家居人工智能

2022-08-18 11:07:17

网络人工智能AI

2023-12-18 18:56:28

超级人工智能人工智能

2024-02-05 11:09:57

2017-03-27 12:30:54

人工智能

2022-07-26 11:27:40

人工智能AIOps

2024-02-26 11:31:33

人工智能数据中心

2020-06-28 14:32:11

数据标注人工智能AI

2017-12-07 14:47:17

人工智能AI信息化

2022-11-11 10:07:38

人工智能开源

2022-07-22 11:02:46

人工智能AI网络安全
点赞
收藏

51CTO技术栈公众号