人工智能(AI)和机器学习(ML)技术正在颠覆全球几乎所有行业,并且人工智能技术不仅在机器人技术和车辆自动化中得到应用,金融服务、零售、制造业、健康和生命科学等行业的组织也在通过人工智能(AI)和机器学习(ML)产生的见解实现业务的发展。
很多数字领导者也正在关注这些新兴技术:
- 根据调研机构IDG公司在2019年进行的数字业务研究,大型组织计划在数字计划上平均花费1530万美元,其中人工智能(AI)和机器学习(ML)名列前茅。
- 尽管对技术充满热情,但人工智能(AI)和机器学习(ML)项目的失败率一直在50%到85%之间。
导致这些失败的原因包括:没有提前制定计划、没有得到高管或业务领导的认可、或者没有找到合适的团队来执行项目。在没有适当策略的情况下追赶热门技术趋势,通常会使组织走上失败的道路。
幸运的是,很多组织从这些失败中接受了教训,可以为其下一个人工智能(AI)或机器学习(ML)项目提供更好的计划。以下是人工智能团队在开始新的人工智能项目时应该问自己的10个问题:
1. 是否明确了定义目标并确定了正确的问题?
令人惊讶的是,许多组织对他们想通过人工智能项目实现的目标并没有清晰的愿景。此外,他们对于在实现目标的过程中采取必要的步骤没有正确的认识。
WekaIO公司首席技术官Shimon Ben David说:“很多公司都会从‘我们知道人工智能是游戏规则的改变者,所以让我们看看能用它做些什么’。”
WekaIO公司提供了并行文件系统来帮助解决存储问题,就像那些开始人工智能之旅的公司一样。
就像探险者为到达目的地做好准备一样,组织项目负责人需要确定最终目标,然后提供一张地图,其中包括旅程中每一步要遵循的具体方向。对于人工智能项目来说,需要确定具体的结果,然后通过提出问题和回答问题来指明方向,以帮助达到目标并实现预期的结果。
这里的关键是建立一个良好的人工智能团队,有能力提出和回答这些问题。团队成员可能包括软件工程师、业务主管、主题专家,甚至是客户。
例如,假设一家金融机构的最终目标是通过提高利润率来获得更多收入。首先要问的一个问题是,“如何使用人工智能来做到这一点”,其中的一个解决办法是考虑使用人工智能来帮助降低贷款的违约率,从而获得更好的投资回报。
因此,谁能提出正确的问题来确定违约风险最高的客户?在这种情况下,这家金融机构的团队成员和个人客户将是提出问题和收集数据的最佳人选,因为他们是最接近数据来源的人——客户。组织的团队需要了解客户面临的问题,并经常与客户进行互动,经常会听到付款延迟的原因,这会导致贷款状况受到威胁,有时甚至会导致违约。
对于良好的客户,金融机构可以提供激励,例如降低利率。对于高风险客户,金融机构可以提供计划和监控措施,以确保他们保持正常付款或将其排除在高风险类别之外。
需要记住的是,组织为实现最终目标而产生的问题可能会随着收集的数据的增多而改变和演变。如果选择了正确的目标,那么应该保持不变,但是当组织遇到问题和障碍时,实现目标的步骤可能会改变。如果还没有确定正确的目标,则提出问题可能会让组织明白这一点,这样就可以朝着正确的方向前进。
Ben David说:“组织需要不断地提出问题,这些问题很有可能随着项目的进展而改变,但组织必须在一开始就对这些问题做出初步的回应。”
2. 实现目标或解决问题需要哪些数据?
在人工智能项目团队确定了人工智能可以实现的目标或可以解决的特定问题后,组织团队将继续提出问题,以确定实现目标或解决特定问题所需的数据或变量。
以这家金融机构为例,在确定高风险类别的贷款客户之后,其团队只是朝着目标迈出了第一步。需要记住的是,其目标不仅是确定违约风险较高的客户,而且还要防止他们违约,以便可以提高利润率。
研究团队提出了更多的问题,以便进入下一个步骤:高风险类别中的每个客户是否都面临着同样的情况,使他们无法支付贷款?如果不是,那么团队如何识别和分类需要不同形式帮助以实现及时付款的客户?有哪些补救措施可以帮助这些客户并防止他们违约?
这就是数据实际发挥作用的地方。金融机构拥有客户的姓名、个人信息、银行信息、社交媒体公告、图像、视频和其他记录,可以通过这些数据来回答问题。虽然存在大量数据,但可能不需要所有数据。另一方面,一些信息可能会丢失。事实上,大多数组织在开始实施人工智能项目时都认为有足够的数据来回答这个问题,但是相当一部分数据已经丢失,或者他们拥有的数据对回答问题没有用处。Ben David表示,根据他的经验,从未遇到过一家收集太多数据的公司。
Ben David说:“也许我有银行记录,但它们没有信用评分。也许我的社交媒体上没有他们发布的相关标签来帮助我了解他们的财务状况。而了解数据中的内容非常重要。”
有时,组织必须采用自己的数据来填补缺失的内容。用于提取数据集的工具会根据需要收集的数据类型而有所不同。例如,Google Analytics提供了网站访问者数据和指标,但是还可以通过Hubspot、Salesforce或许多其他服务拥有客户或联系人数据库。
但是要记住的是:保留一切数据!组织往往会获取大量数据,在创建人工智能或机器学习模型时提取数据,然后将原始数据存储在某个永远不会被访问的地方,或者更糟的是,删除未使用的数据。在以后重新评估需要再次使用原始数据的特定模型时,数据可能至关重要。
例如,研究犯罪的专家利用DNA技术和方法来帮助查证嫌疑人在几年前或几十年前犯罪的事实。因为在这些情况下需要存储和保存证据,所以研究犯罪的专家可以重新分析犯罪线索。人工智能适用相同的原则:人们可能不认为自己现在需要所有收集的数据,但是多年以后,更好的算法或新技术的进步可能会将一些看似无用的数据变为高度相关的证据(例如头发的DNA采样)。
3. 如果还没有数据,将从哪里获取数据?
如果组织发现自己需要更多数据,下一步将确定从何处获取所需数据。组织是否生成了数据,是否购买或租用了这些数据?
例如,一家从事涉及遗传学的人工智能项目的医疗公司需要查看公共基因组数据库中的数据,但可能发现他们没有特定人工智能模型所需的数据,在这种情况下,他们可能需要进行实验。或者也许他们只需要图像中的一段数据,而不是查看一组完整的标记数据。
Ben David说:“组织要确保知道要在哪里获取数据,但也要明白这一点可能会随着时间的推移而改变。”
例如一名农民通过无人机拍摄其农田的大量照片,并通过传感器收集数据,用于跟踪作物生长或土壤湿度。即使农民收集了一个月的数据,其条件也会持续发生变化(天气、作物生长、野生动物等),以至于数据收集工作永远不会完成。因此数据采集不是一劳永逸的事情。Ben David 说,“需要提前计划何时何地获得下一批数据,并采取措施获取数据,通常与其他工作同时进行。”
4. 组织的计算策略是什么:内部部署、云计算还是混合部署?
人工智能项目遇到的一个主要问题是让它在与组织的整体数字计算战略不一致的计算平台上运行。组织需要了解当前和将来的计划可以帮助人工智能团队正确规划最佳方法,以接近用于人工智能或机器学习模型的平台。
Ben David说,“如果希望采用最有效的方式来适应组织的战略。这可能是因为组织在具有多个GPU的内部部署环境中投入了大量资金,这是组织获得成功最快的一条途径。”
人工智能和机器学习项目可以通过内部部署、云计算或混合平台获得成功,因为它们符合组织的整体战略,并且不会与未来的变更或修改相冲突。而主要业务在云计算环境运营的中小组织可能会发现运营成本随着规模的增长而变高,因此转移到内部部署环境更有意义。
5. 移动和存储数据的计划是什么?
很多组织发现,在处理人工智能模型的过程中,他们并没有存储和移动数据的计划。想象一下,跨国公司的业务部门遍布世界各地,在各地的多个地点生成数PB的数据。那么是在创建数据的地方进行处理,还是在世界各地的站点之间以某种方式传输数PB的数据?这是人工智能项目有时没有考虑的关键事项之一。
另一种选择是将数据集中在一个数据中心,但传输数据可能需要压缩数据或以物理方式传送数据,而不是通过云平台传输数据,因为其成本十分高昂。而且,确保数据安全也是一个主要问题,因为某些数据由于所在地的法规而无法传输。最后,等到数据到达时在人工智能处理现场,可能会发现它已经过时了。
Ben David说:“每个组织都有不同的答案。但是如果不在项目开始时就考虑这个问题,那么很有可能会遇到问题。”
此外,组织需要考虑保留数据以备将来使用的策略。在许多情况下,组织频繁进行实验中生成数据。这些实验数据需要保存、存储和保护,但也可以在需要时用于快速检索。如上所述,保留的数据集其中包括原始数据,这些数据当时似乎无关紧要,但随着人工智能模型的发展和分析能力的发展,以后可能会有用途。Ben David强调,组织不应删除或忽略原始数据。
6. 将如何消除偏见并验证模型结果?
收集数据并保存之后,需要确保知道如何验证人工智能或机器学习模型生成的结果。一种方法是运行已知数据集并查看结果,以确保组织对预期结果具有更高的准确性。
例如,如果组织的人工智能算法正在识别一批照片,并确定哪些包括苹果的图像,哪些包括桔子的图像,那么其模型会准确地识别出正确的水果吗?Ben David说,人类通常可以很简单地给出答案,但当数据集包含数百或数千张图像时,人工智能的能力无法很好地扩展。在这种情况下,人工智能专家通常通过模拟器进行验证,这样可以在更大范围内验证人工智能模型。
此外,验证结果是确定人工智能是否具有内置于模型中的固有偏见的重要步骤。例如,当亚马逊公司的简历筛选应用程序没有以性别中立的方式对软件开发人员职位和其他技术职位的求职者进行评定。这是因为训练过的模型是通过10年以来所提交的简历的模式来选择求职者,而10年来的大多数简历都来自男性求职者(男性在软件开发领域占据主导地位)。
在评估人工智能模型时,需要确保具有发现和消除偏见的策略,否则最终得到的结果可能会扭曲,影响项目的可信度。
7. 多久微调一次模型?
由于人工智能和机器学习的大部分内容都基于软件,因此开发人员经常采用“设置后不管”的方法,这对人工智能技术可能是灾难性的。微调不仅包括准备好定期更改模型,还包括了解从业人员如何更改模型中的不同变量以实现不同的结果。
例如,某些人工智能模型将根据组织的数据提供结果,但还将说明它们如何获得这些结果。但是,有些模型只是简单地将结果提交出来,然后交给数据科学家去弄清楚原因,从而导致许多数据科学家称之为“可解释的人工智能”。 Ben David表示,任何人工智能项目总是在进行中,在可以为其决策提供充分理由的模型上创建和执行,是建立对模型的信任的重要一步。
组织通常会发现具有“不良数据”的结果。不良数据是尚未“清理”的数据,或者包含缺少的字段、重复项、或者数据类型的格式不正确,例如采用文本格式而不是以日期格式编写的日期。
但是,即使是干净的数据也可能被认为是不好的数据,如果它太具体或者具有偏见,比如在面部识别中产生的问题,或者在亚马逊的简历扫描应用程序中发现的性别偏见。最初的数据可能看起来不错,但在算法不断筛选女性求职者的简历之后,其结果却很糟糕,因为该模型没有考虑到历史数据中女性应聘者简历很少的情况。数学算法中的这个错误实际上表明了数据集中的错误:历史数据不够广泛。
确定数据好坏的最佳方法是,首先确保数据干净,然后检查数据范围是否足以产生公正的结果。
8. 如何部署新模型?
通过定期进行微调的模型,组织就需要有围绕部署新人工智能模型的可能性的策略,该模型可以更好地回答原始问题,或者根据他们看到的结果生成新问题的可能性。
例如,在某些时候,数据科学家可能会决定将其人工智能模型或算法转移到其他神经网络,这可能需要创建新的模型,而不是微调或修改原有的模型。其中许多决定取决于组织要实现的特定算法或目标,但人工智能团队应该关注如何部署新的模型需要在以后的日期出现的问题。
有些人可能认为获取更多数据是微调或创造更好结果的一种方式,但这对于许多公司而言可能是一个陷阱。如果数据不好,那么添加更多数据将不会解决问题。当人们认为获取更多数据会有所帮助时,他们通常暗示需要获取满足高质量标准的更广泛的数据集。
Data Quality Solutions公司总裁Thomas C.Redman在2018年发表在《哈佛商业评论》的一篇文章中指出,良好的数据必须以两种方式正确处理:
- 必须正确,贴有标签,删除重复数据等
- 一定适合组织。
今年早些时候,Redman在《麻省理工学院斯隆管理评论》发表的一篇文章中还谈到了组织在处理不良数据时经常浪费关键资源。他说:“糟糕的数据反过来会滋生对数据的不信任,进一步减缓创造优势的努力。”
9. 计算基础设施在第3天和第300天的情况如何?
人工智能项目正在不断变化和发展。算法或软件以及计算基础设施都可能发生变化,这意味着该模型可以开始在组织拥有的服务器上运行,然后转换为在公共云或混合平台中运行。如果组织将其人工智能数据策略与组织的整体计算策略保持一致,这并不是什么大问题。
Ben David说,“例如,一家组织以通过一两名数据科学家采用带有GPU的笔记本电脑开展项目,如果一切顺利,那么需要更多的数据科学家工作,那么需要提供更多的基础设施。组织需要做好规划。”
随着数据量的扩展和模型变得越来越复杂,对更健壮计算的需求也越来越大;否则,数据量是原来的10倍意味着模型将花费10倍的时间,从而降低了生产率和灵活性。计算规模扩展需要组织确保可以相应地扩展网络。
组织经常会犯的代价高昂的错误是,没有为项目过程中的数据显著增长做好规划。积累10倍的数据意味着存储成本的显著增加和额外的延迟,这通常是由于在冷存储层中存储更多的数据并将其来回移动到热存储层。这些读写操作非常耗时。一些组织为了规模经济和灵活的容量,在云中对一些数据进行分层,这给多个服务器和不同的运营模式带来了管理开销。
较新的文件系统(如WekaFS)在服务器中管理不同的层,其吞吐量与本地存储设施相当。使用现代文件系统可以极大地减轻成本和管理负担,帮助组织在数据增加时保持较高的生产效率。大多数现代文件系统都是从头开始设计的,以支持EB级的数据以及人工智能和机器学习工作负载。
10. 如何对项目进行未来验证?
Ben David表示,他看到许多组织在启动人工智能项目时都对成功寄予厚望,但团队并没有对整个项目采取全面的看法,因此在开发方面将会遇到麻烦。他说:“很多组织在业务发展之后需要更多的基础设施。通常情况下,会看到客户试图扩展其现有的基础设施,而不是重新设计。”
例如,一名数据科学家可能在开始时采用自己的笔记本电脑工作,然后需要更多的数据科学家的参与,而组织的团队需要在连接网络的存储设备上工作。
另一方面,一个项目可能是从云端开始的,但是团队有10到50名数据科学家参与了这个项目,因此组织领导者认为购买用于计算、网络和存储环境的内部设备更划算。围绕如何有效管理增长和扩大项目规模制定战略,有助于组织的人工智能项目需要经得起未来的考验。
结论
总而言之,组织在项目上获得成功必须有人工智能团队在基础设施变更方面保持灵活性,愿意微调其模型,并具有足够的前瞻性思维,以制定计划来安全有效地移动和存储数据。