图为IBM大数据与分析事业部全球研发副总裁Dinesh Nirmal。
今年是莎士比亚逝世四百周年。在莎翁名剧《尤利乌斯·凯撒》中一个占卜师有这样一句没有上下文的预言:“请小心‘三月’中”, 凯撒听后不知道这句话是何意思,于是说让这个占卜师继续做梦吧。结果在三月十五日,凯撒被密谋暗杀。类似的,今天的预测算法可以告诉你一个预言,但却无法提供合适的上下文,这让人难以做出进一步行动的决策。
另一个关于预测算法的例子是在最新的《复仇者联盟3》中,出现了一个人工智能合成物“奥创”。奥创只能按字面理解任务,于是把“拯救地球”理解成了“杀死所有的人类”。这就像一个典型的预测算法,按字面理解任务而忽略掉了其它的可能性或任务的现实意义。
于是,2016年1月,哈佛商学院教授Michael Luca、经济学教授Sendhil Mullainathan以及康奈尔大学教授Jon Kleinberg联合在《哈佛商业评论》发表了一篇题为《算法也需要管家》的文章,呼吁全球科技界和商界在机器学习算法和人工智能时代要注意算法的管理问题。因为,如果有一天,算法能够决定“凯撒”或地球的命运,那么谁来管理算法呢?
IBM大数据与分析事业部全球研发副总裁Dinesh Nirmal最近现身在北京举办的2016机器学习和行业应用国际峰会,他介绍了IBM作为全球大数据分析、机器学习和人工智能的前沿科技企业将如何面对一个复杂的算法世界,这就为机器学习造一个可以自学习、自调整、自优化的机器管家——基于Spark的机器学习云服务。
Apache Spark是一个分布式计算框架,是专为满足低延迟任务和内存数据存储而优化的开源大数据系统。由于其并行计算性能以及兼顾速度、可扩展性、内存处理以及容错性等,再加上可大幅简化编程的丰富API,让Spark成为了机器学习算法的主流计算平台。IBM在2015年6月宣布加入Spark开源社区,并承诺将把Spark作为自己的分析与商务平台核心。
2016年6月开始,IBM花了5个月时间开发了基于Spark的机器学习云服务,该云服务将提供公有云、本地部署及混合云部署等版本,该云服务还可部署在IBM大型主机z系列上。Dinesh强调,该云服务除了在获取数据、抽取特征、训练模型、部署模型、做出预测等经典机器学习过程中进行优化外,还加入了持续反馈、自动建模、重新训练模型等自动化管理。
在自动建模中,IBM的机器学习云服务能够根据数据模型自动推荐最优算法,并根据数据特征值来评价模型的性能和表现,当模型训练好后可在实时环境、生产环境和离线批量环境中部署模型。当数据变化后,该云服务还能实时监控模型的表现,然后自动重新训练模型。整个过程中不需要把模型离线训练后再重新上线,极大方便了实时生产环境中的商业应用。
Dinesh认为,在机器学习的世界里,开源是一个大趋势。为此,IBM开源了自己的重量级机器学习框架SystemML,并在旧金山设立Spark技术中心,还在全球投入超过3500名IBM研究和开发人员开展与Spark相关项目。2016年6月,IBM把自己的开源软件与基于Apache Spark的H2O、RStudio、Jupyter Notebooks等开源科研分析交互环境相结合推出了Data Science Experience云服务,以提升数据科学家的机器学习和数据分析速度。
为了进一步加强自己的数据分析产品和技术生态圈,IBM从2015以来为Apache Toree、EclairJS、Apache Quarks、Apache Mesos、Apache Tachyon(现更名为Alluxio)等开源项目做了大量贡献,也为Apache Spark的子项目如SparkSQL、SparkR、MLLib和PySpark等做了深入贡献。如今,Spark已经与IBM的Watson、商务、分析、系统和云等超过45种核心产品相结合。
IBM对于Spark的投入已经超过3亿美金,并把Spark视为数据分析的操作系统。推出基于Spark的机器学习云服务是IBM的最新进展,是为了给机器学习算法提供一个安全、高可靠的统一管理平台。在此基础之上,IBM进一步把Watson用于机器学习,让人工智能帮助机器学习算法更“聪明”地理解人的意图,这就是刚推出的Watson数据平台。
Dinesh介绍说IBM正在把所有的机器学习、人工智能、数据分析、数据管理等整合起来到一个统一的基于Spark的平台上,这包括开源的算法以及IBM自有的算法等,再经过优化和配备企业级解决方案,最终以混合云方式为企业打造一个可以自由选择的数据与算法管理平台。
2017年,我们将迎来一个移动互联网大发展的大时代,数据与算法将更加容易地“统治”世界。从在线音乐、在线游戏、在线广告到各类生活服务、社交沟通以及内容消费等,机器学习算法在不知不觉中替人们做了很多选择。因此在欢呼机器解放人类的同时,也要警惕算法带来的“偏见”,这就需要能够自学习、自校正的机器。
从机器学习到学习的机器,这是人工智能商业化道路上的必经之路。