数据问题是企业的人工智能项目没有达到预期目标的主要原因。但是,如果企业能从错误中吸取教训并长期坚持,那么在人工智能方面的努力将会得到回报。
18个月前,Cooper公司为其客户服务代理商推出了智能推荐系统,以便为客户问题提供解决方案。该公司前身为Nationstar公司,是美国最大的非银行抵押贷款提供商,拥有380万客户,因此该项目被视为该公司一个令人关注的节省成本的项目。该公司首席信息官Sridhar Sharma说,该公司花费九个月的时间才发现代理商没有使用它,又花了六个月的时间来弄清楚原因。
Sharma发现,智能推荐系统提供的建议与客户并不相关,但问题不在于机器学习算法。相反,该公司依赖于基于客户问题的技术术语描述训练数据,而不是使用客户自己的语言描述这些问题。
他说:“我们没有很好地确保客户提出问题的根源是没有采用客户使用的术语,这是因为是用我们内部使用的技术术语编写的。”
Sharma说,此外,智能推荐系统的反馈机制(代理记录通话结果)有重叠的类别,这使得问题更加严重。他拒绝透露这个项目给该公司造成了多大的损失。
Cooper公司陷入人工智能的困境并不是异常现象。根据调研机构IDC公司最近的一项调查,只有约30%的受访者表示其人工智能项目的成功率为90%,大多数受访者表示其失败率为10%到49%,而3%的受访者表示一半以上的人工智能项目已经失败。
超过四分之一的受访者认为,缺乏员工以及人工智能技术具有不切实际的期望是面临的主要挑战。另有23%的人表示他们的人工智能项目因为缺乏必要的数据而失败。
Sharma说:“失败的第一个征兆是有些人想退出这个项目。但如果这样做,就注定要失败。”
Cooper公司计划明年将重新回到客户服务项目,作为其客户关系管理(CRM)系统改革的一部分,企业将继续致力于人工智能技术的开发。其最新的机器学习项目涉及分析非结构化数据,已经具有积极的商业利益,并有助于为未来创建更好的语言训练数据。
他补充说,“这些措施的成本并不低,当事情不顺利时,需要企业首席执行官和首席财务官的支持。”
缺乏数据
数据问题是人工智能项目达不到预期目标的主要原因。根据麦肯锡公司去年秋天发布的一份调查报告,限制人工智能技术应用的两大挑战与数据有关。
首先,与Cooper公司一样,许多公司很难获得适当标记的数据来训练他们的机器学习算法。如果数据没有正确分类,工作人员必须花费大量时间标记,这可能会延迟项目或导致项目失败。第二个数据问题是没有项目的正确数据。
普华永道公司合伙人兼全球人工智能领导人Anand Rao表示,“企业通常没有合适的数据,如果无法使用未标注的数据建立模型,就会感到沮丧。这就是企业实施人工智能项目一直失败的地方。”
美国奥杜邦协会正在使用人工智能来帮助保护野生鸟类。例如,该组织在7月份发布了一项关于气候变化如何影响38种草原鸟类的人工智能分析结果。
奥杜邦协会保护科学副总裁Chad Wilsey说,“如果我们不采取任何措施来减缓气候变化的速度,那么42%的草原鸟类可能面临灭绝,但如果我们能够采取行动,那么可以将其比例降低到8%。”
并非所有奥杜邦协会的人工智能项目都取得了成功。去年夏天,该组织试图利用机器学习来计算海滩上的褐鹈鹕和剪嘴鸥的数量。该试点项目基于一组志愿者收集的图像,这些志愿者通过无人机在德克萨斯州海岸附近的一个岛上进行调查。
Wilsey说,“我们有兴趣了解通过的飓风如何影响鸟类种群。”
例如,大多数可用的鸟类图片都是由地面上的工作人员拍摄的,而不是无人机直接拍摄。Wilsey说,由于这是一项试点研究,奥杜邦协会没有资源拍摄更多的照片。
训练数据偏差
另一个人工智能项目因缺乏数据而受阻的例子是弗里茨实验室试图创建一个模型来识别照片中人们的头发。弗里茨实验室帮助移动开发者构建可以直接在手机上运行的人工智能模型,而无需将数据发送回中央服务器进行处理。
该公司首席技术官Jameson Toole说,“我们希望建立一个能够在实时视频中检测头发并实时改变颜色的功能。”
他说,起初一切看起来都很好,但算法中存在一个重大缺陷,如果系统公开上市的话,其问题会非常严重。
Toole说,“值得庆幸的是,我们在办公室和我们招募的人员之间进行了大量的人工测试,我们意识到对于某些种族人群来说,这并不是一件好事,我们重新筛选了数据集,以确定数据集中没有人是这些种族人群的一部分。”
他说,有很多图像数据集可供训练,包括免费的和商业的数据集。但是企业必须检查是否有他们需要的特定类型的足够数据。
他说:“企业首先要花费一定的时间,努力构建自己的代表用户群的测试用例。”
弗里茨实验室最终收集了丢失的图像,并通过工作人员的处理对它们进行注释。Toole说,“这无疑凸显了这样一个事实,即当受到可用数据的限制时,将偏见引入这样的系统并不困难。”
根据普华永道公司最近的一项调查,一半以上的公司没有评估人工智能偏见的正式流程。更糟糕的是,只有25%的受访者表示他们会在实施之前优先考虑人工智能解决方案的道德含义。
数据集成问题
有时,问题不在于缺乏数据,而在于数据太多。普华永道公司零售业务方面的人工智能和数据的常务董事表示,一家全球性大型银行就面临这种情况。
他表示,如果能够回到过去,这家银行就会更早地开始将不同的数据渠道汇集在一起。他说,“这是我们没有做的事情,这是一个很大的错误。我们收集了数据,其结果是我们没有获得完全的全方位的客户视图。”
他补充说,该数据整合问题损害了这家银行创建有效营销信息的能力,导致收入损失,该银行现在正转向多渠道客户数据视图,包括在线、移动和面对面互动。
他说,“我们仍然不在那里,孤立的数据是我们拥有并仍然存在的最大挑战之一。这个挑战不是技术问题,而是商业问题,第一个问题是合规性。我们不允许混合某些类型的数据。”
他说,“另一个问题与企业优先事项有关。还有很多其他项目正在运行。谁会为将数据混杂一起而支付费用?这本身并不是银行的增值业务。”他表示,这是每个银行都必须面对的挑战。
他说,“如果再次开展这个项目,应该在银行首次开始处理人工智能用例时启动数据集成过程。我不认为我们真的会做到这一点,因为有太多的数据来源,我不认为都能完全完成。”
他表示,该银行预计在未来18至24个月内将连接其主要数据源。他说,现在该银行只有10%到15%左右。
数据漂移
人工智能项目面临的另一个问题是企业依赖历史数据而不是活动交易数据来进行训练。埃森哲公司董事总经理安德里Andreas Braun表示,在许多情况下,在转换为实时数据时,对单个静态历史快照进行过培训的系统表现不佳。
埃森哲公司负责欧洲数据和人工智能业务的Braun说,“企业可以卸载一些数据,训练一些模型,并在实验室中获得相当好的模型提升,但是一旦把它重新融入组织,就开始出现问题。”
历史数据样本和通过实时系统传输的数据之间可能存在显著差异,例如,实时检测欺诈或发现洗钱行为,因为这些模型没有经过训练,无法识别其行为的微小变化。
他说:“如果某个用户在某个时间点(可能是晚上、周六或周日)复制数据,那么这种情况将会冻结数据。这使得实验室的分析非常容易。但是,当机器学习模型重新融入到实时系统中时,其情况会更糟。”
Braun说,解决方案是将数据科学家从生产技术方面放入一个单独的孤岛中。特别是,当使用实时数据构建模型时,将模型集成到生产环境中要快得多。
他说:“而且成功的情况要好得多。它完全改变了游戏规则。”
未经处理的非结构化数据
根据咨询机构德勤公司最近的一项调查,62%的公司处理非结构化数据仍然依赖电子表格,只有18%的公司在分析工作中利用了产品图片、客户音频文件或社交媒体评论等非结构化数据。
此外,德勤公司零售和消费产品战略和分析实践负责人Ben Stiller表示,该公司收集的大量历史数据缺乏对人工智能有用的背景,或者以摘要形式存储。
“数据限制当然可以从一开始就为失败做好准备。”他说。
Stiller说,“然而,根据调查显示,像Cooper这样利用非结构化数据的公司,其业务超出其业务目标的可能性要高出24%。这真的需要企业对数据的看法发生根本性的转变。”
例如,Cooper公司以大约15亿个客户文档的形式拥有大量非结构化数据。因此,客户服务代理会花费太多时间查找帮助客户所需的文档,有时还需要与客户沟通回访。
因此,该公司使用机器学习技术扫描了所有15亿份文件,并仔细分析了第一批1.5亿份文件,这些文件属于200种最常用的文件。
Cooper公司的Sharma说,“现在我们有一个机器学习项目,它带来了价值,并且现在正在实施中。”
当企业重返以前问题缠身的人工智能客户服务项目时,除了加快客户服务呼叫的速度,文档分析还帮助创建一个更好的语言字典,供将来使用。
文化挑战
除了数据外,组织问题对人工智能的成功提出了重大挑战。
Sharma说,如果回到过去,他最初会专注于客户在详细解决问题时使用的语言,并让主题专家与人工智能开发人员配合工作。
Sharma说,“必须让客户与我们的技术团队一起合作,这样的场景始终是最重要的,你必须让他们一起共事,并使其成为一份全职工作。”
除非企业能从这些错误中吸取教训,否则实现人工智能承诺的机会可能会减少,因为失败的人工智能项目可能会让投资团队不再提供融资,并可能对员工和客户满意度产生负面影响。
Stiller说,“围绕人工智能的早期失败项目可能让执行团队放弃在这个领域的重大投资。这可能会导致企业落后于竞争对手。”
这一切都从企业管理层开始。正如德勤公司的调查显示,企业高层对于人工智能项目的支持至关重要。Stiller说,“如果企业首席执行官提供支持,那么其业务目标的成功率可能会超过77%。”
因此,不要让挫折破坏企业对人工智能的组织承诺,因为人工智能的长期方法会得到回报,他说,“随着时间的推移,企业实施的项目越多,投资回报率就会越高。”