当下那些超大公司在如何克服AI方面的几大挑战。
摘要:许多企业试图改造业务,打造竞争优势,于是大力投入于AI技术。这份针对多个行业跨国公司数据科学和工程团队领导人的调查发现,将近90%的人在大力投入于AI,但全面获得投入回报的寥寥无几。
只有三分之一的AI项目成功,从概念阶段到生产阶段历时超过6个月,相当多一部分根本就没有进入到生产阶段,这给企业组织带来了AI困境。
数据成就了AI,但也让AI实施起来困难重重。约96%的企业称,AI项目进入到生产阶段时,与数据有关的挑战是最常见的障碍。企业数据不支持AI,并分散在数百个系统中,比如数据仓库、数据湖、数据库和文件系统。TensorFlow之类的机器学习框架又不搞数据处理。
由于数据系统不“搞AI”、这些AI技术不“搞数据”,企业到头来平均使用7种不同的工具,这造成了摩擦,阻碍了项目。雪上加霜的是,调查发现,由于数据科学团队和工程团队分属独立的部门,其中80%面临数据协作挑战。
所以,什么有望帮助这些企业克服AI困境?据调查声称,90%的调查人员认为,统一分析(Unified Analytics)可破解AI困境。这种方法将数据处理与机器学习框架统一起来,在整个机器学习生命周期为数据科学团队和数据工程团队的协作提供便利。统一分析是一类新的解决方案,它整合数据科学和数据工程,极大地方便了企业搞AI项目。统一分析让数据工程师更容易跨孤立的系统构建数据管道,并准备用于建模的标记数据库,同时让数据科学家能够探索和显示数据、协作构建模型。
引言:CIO/IDG研究服务公司调查了欧美大企业(员工超1000人)正在考虑或使用AI技术的200多名IT高管。我们想全方位了解AI投入、预期的业务成果、挑战以及促进AI成功的因素。
AI困境――近90%投入于AI,但成功的寥寥无几
很显然,多个行业的调查对象往AI项目投入了大量的资源,希望打造新的业务模式,以便充分利用数据和机器学习,包括发现挽救生命的新药、检测欺诈和恶意行为、改善全球供应链管理,以及为客户打造高度个性化的数字化体验。
尽管面临挑战,但调查对象还是全力投入于AI。如此一来,三分之二的调查对象预计AI投入在今后一年会加大也就不足为奇了(见下图)。
Databricks的产品营销副总裁巴拉什•高达(Bharath Gowda)说:“AI大有潜力带动颠覆性创新,从而影响全球大多数企业。它广泛应用于各行各业。它现用于基因组学,加快药物发现、促进个性化医疗。它还用于制造业,提高产品开发和交付过程的运营效率。尽管大有潜力,但是成功地扩大AI项目规模的公司却寥寥无几。”
与数据有关的挑战在阻碍96%的企业搞成功AI
但CIO/IDG调查显示,由于诸多原因,企业还没有完全获得AI的好处,但数据是一个绝对的话题。说到项目进入到生产阶段时,几乎所有调查对象(96%)提到了多个与数据有关的挑战(见下图)。
而谈到与数据有关的挑战时,数据孤岛的提及率远高于其他问题,技术复杂性则是第二大挑战。
高达说:“对于数据科学家来说,事实已证明,用大量数据做出来的简单模型得到的效果比用少量数据做出来的复杂模型要好。所以,数据越多模型就越好――数据是AI的助推器。数据科学家易于获取干净可靠的数据,这是成功的关键。因此企业面临的挑战就是,将孤立的凌乱数据转换成干净的标记数据,用于开发模型。”
日益增加的复杂性:企业平均购置七种不同的机器学习工具
数据工程团队和数据科学团队的区别还延伸到它们使用的工具,而工具有好多种。
绝大多数(87%)购置各种各样的数据和AI相关技术,帮助准备数据、探索数据和构建模型,包括:
- 85%的调查对象使用数据处理工具,比如Apache Spark、Hadoop/MapReduce和Google BigQuery。
- 65%的调查对象使用数据流工具,比如Flume、Kafka和Onyx。
- 80%的调查对象使用机器学习工具,比如Azure ML、Amazon ML和Spark MLlib。
- 65%的调查对象使用深工学习工具,比如Google TensorFlow、微软CNTK和Deeplearning4j(DL4J)。
总的来说,调查结果显示,企业平均使用七种不同的机器学习和深度学习工具和框架,这带来了很复杂的环境,会降低效率。
高达说:“为了从AI获得价值,企业依赖现有的数据和对海量数据集迭代搞机器学习的能力。今天的数据工程师和数据科学家使用众多相互脱节的工具来完成这项任务,包括一大堆机器学习框架。”
孤立的数据科学团队和工程团队:80%因而遇到生产力下降的情况
技术技能、领导能力和缺乏连贯一致的策略是数据工程和数据科学团队面临的三大障碍(见下图)。
统一分析--许多企业需要一类新的解决方案来化解AI困境
调查对象很清楚,自己会欢迎这类工具。近五分之四(79%)表示,统一大数据和AI的端到端分析平台会非常宝贵,同时促进数据工程团队和数据科学团队之间的合作。
这类平台应有的其他功能包括:
- 处理庞大数据集时性能出众
- 内置与各个数据源集成的功能
- 让拥有不同技能的数据科学家可协同工作的协作空间
- 能够支持弹性扩展的云原生平台
- 内置的数据管理功能,用于构建庞大的数据管道
- 支持多个云