一个人工智能项目中,最重要的究竟是数据、算法还是处理过程?
有人认为,数据就宛如人工智能的汽油,重点应该是干净的数据、数据科学和对数据含义的深刻理解。
有些人说,没有来龙去脉的数据是没有意义的,这些数据的来龙去脉可以是其他数据、模型/算法或处理流程。
让我们以一种简洁的方式探究这些人工智能的要素,以发现每种视角的优点。
数据
数据是起点,因为它是非常有用的资产。
不管真假,人们都认为数据承载着知识,而利用这些知识将有利于那些善于研究数据的人。
对人工智能来说,从数据开始,并通过从中学习来利用优势,是有意义的。在数据量大、速度快的时代,使用数据来训练人工智能十分便捷。
企业在商业智能方面有着悠久的历史,很多工作都围绕着数据展开。对于人工智能来说也没什么不同。
原始数据一般通过数据采集获得,随后的数据清洗、数据标注相当于对数据进行加工,然后输送到人工智能算法和模型里进行调用。
人工智能训练所用的数据如果没有保证足够的多样化和无偏性,就有可能产生人为的"AI偏见"等问题。
国内的京东众智、百度众包、阿里众包等都是专注于AI数据的智能众包平台。
算法
理解算法相对于自然环境下的静态数据的优势是很重要的。
事实上,组织可以通过优化其业务的算法获得优势。找到合适的公式、统计模型或预测是真正的商业艺术。
这些算法受到组织的保护,通常被认为是成功的秘密武器。
虽然它们依赖于干净的数据,但数学或逻辑中隐含的规则才是许多行业的真正区别所在。
如果没有精算师和他们宝贵的算法,保险业将何去何从?人工智能也不例外。
机器学习的常用算法包括决策树、随机森林算法、逻辑回归、SVM、朴素贝叶斯、K最近邻算法、K均值算法、Adaboost算法、神经网络、马尔可夫。
人工智能的算法按照模型训练方式和解决任务的不同可以分为好几类,其中需要考虑的因素包括数据本身的数量、质量和特点,具体业务场景中的问题,计算时间及精度要求等。
处理过程
正确的步骤或任务、适当的方式对于取得的结果质量是至关重要的。
无论处理过程(process)是静态的、可重复的,还是动态的、紧急的,都没有区别。
知道下一步的最佳行动是获得最佳业务结果的关键。
好的处理过程就是在正确的时间使用正确的数据和算法。
由于流程的精确性,业务结果肯定是准确的,并且可以通过使用各种形式的监督的透明反馈周期进行适当的调整。
三者缺一不可?
真正的结论是,要想获得长期的成功,你需要这三者。人们可以先从其中一个要素开始,接着添加其他要素。
随着机器学习逐渐展现出其威力,许多人工智能项目都是从数据开始的。
但随着人工智能的发展,算法和处理过程也将成为不可忽视的要素。
基于数据的人工智能目前运行良好,随着问题的复杂性和范围的扩大,算法和处理流程的重要性将会凸显。
如同三角形需要三条边来稳定形状,人工智能也将需要全部的三要素来完善自身。