今天的演讲是贾阳清为阿里巴巴CIO学院举办的有关人工智能(AI)技术的特殊培训课程准备的。 在现场直播中,贾阳清讨论了AI涉及的工程和产品实践。 首先,他介绍了AI及其应用。 然后,参与者讨论了AI系统中的重要问题,包括推动算法创新的计算能力的突破以及云平台可提供的价值。 最后,贾先生分析了大数据与AI之间的关系,讨论了企业应如何接受AI,并提出了公司智能化战略的重点。
5商业价值和人工智能原理| 数据驱动的投资者
难以获得商业价值。 我的意思是非常辛苦…就高级分析而言,该过程甚至…
演算法
人工智能已经成为一种重要的技术趋势。 现在各行各业都在拥抱AI,并且与AI的联系更加紧密。 下图列出了AI发挥重要作用的领域,不仅包括与AI密切相关的领域,还包括由AI间接赋予的那些领域。
在我们超越自己之前,我们需要了解AI,其应用程序和系统背后的思想。
随着AI在过去80年来的发展,我们已经从图灵测试到全民面对变革取得了成就。 机器像人类一样使用AI来回答问题并创建或执行计算和分析任务。 在某些领域,计算机已经实现了人类的能力。 例如,2019年发布的人脸变化应用程序基于AI领域中深度学习和神经网络的广泛应用。
当前,在我们的日常工作和生活中使用了许多AI应用程序来代替人工工作。 例如,埃隆·马斯克(Elon Musk)的AI项目能够模拟人脑的操作。 但是,随着AI的飞速发展,也出现了一些我想称之为"假AI"的例子。
在AI的开发过程中,我们不得不面对几个虚假的AI项目,例如,一个严重的虚假AI项目,欺骗了2亿元人民币(超过2800万美元)的投资者。 因此,我们需要更好地了解什么是AI以及如何使用AI。
在学术界,人工智能的定义有些不同。 人工智能是对人类智能的模拟,能够接收和分类信息,合理地执行一系列任务并基于此做出决策。
它的主要特征之一是采取理性行动的能力。
AI过程从感知到决策反馈。 决定AI系统是否可以采取适当行动的关键因素是它们如何感知有关外部世界的信息。 由于AI试图模拟人的大脑,因此感知过程实际上是理解和学习的过程。 这是深度学习试图通过AI解决的问题。
深度学习
只有当外部信息(例如视频,文本或语音命令)转换为机器语言时,AI才能接受和响应。 从AI的早期开始,科学家就开始考虑和研究此问题。
随后,人们开始讨论和研究如何通过视觉感知来输入信息。 2012年,加拿大多伦多大学ImageNet竞赛的获胜者Geoffrey Hinton和他的学生Alex Krizhevsky设计了一个解决方案。 那年之后,提出了更深的神经网络,例如著名的VGG和GoogLeNet。 这些神经网络为传统的机器学习分类算法提供了出色的性能。
AlexNet深度学习的发展历史
简而言之,AlexNet的目的是从大量对象中准确识别命令中所需的对象。 该模型的应用加速了图像识别领域的发展,目前已被广泛使用。
像我们的人脑一样,神经网络使用多层次的学习模型,并且随着它们的不断学习而变得越来越复杂。 假设您想从数百万个图像中找到标记为"猫"的图像,并在一个非常大的数据集上训练一个经过编辑的视觉网络模型。 然后,通过模型迭代实施更复杂的训练。
目前,常用的RestNet模型的深度超过一百层,并结合了一些最新的科学研究发现,例如下图底部所示的快速桥连接。 这使用户可以快速有效地训练深度网络。 最终,这解决了视觉感知的问题。
阿里云:智能航空围裙管理
该解决方案使用AI来识别飞机类型,登机门和机场车辆,并将它们反映在实际地图上。 它还允许用户在飞行过程中看到飞机的轨迹。 该信息可以用作AI管理的输入信息,从而使机场的运营更加方便和有效。
如前所述,深度学习是一种重要的感知模式和方法。 深度学习算法主要包括:
- 资料标记
- 算法模型开发
- 高性能的分布式培训
- 模型优化
- 模型部署
感知之后,AI系统需要做出决策。 深度学习是一种黑盒操作,可以学习和感知外部信息,但不能提供任何解释感知问题原因的反馈。 因此,分析和反馈需要决策能力。
传统机器学习的示例主要包括决策树算法和逻辑回归。 例如,银行发放贷款的过程是一个决策过程,在平衡各种因素后输出决策。 我们可以使用决策树输出"是"或"否"的判断,以确定是否授予贷款。 Logistic回归是指两种数据之间的相关性。 这是一种输出精确解的数学方法。
实际上,深度学习和机器学习是互补的。 深度学习可以解决感知问题,例如计算机视觉和语音识别。 它使用神经网络体系结构解决了许多感知问题,但无法解释感知问题。 传统的机器学习不提供这种用户友好的感知功能。 但是,它的模型相对较小,可以直接解释,这在财务和风险控制方案中是必需的。
人工智能早已应用于广告领域。 淘宝是最常见的广告场景之一。 卖方首先根据消费者的个人浏览信息调查用户的偏好,然后通过智能推荐系统推送与消费者搜索相关的产品。 这种智能算法的广泛应用使用户信息挖掘更加高效和精确。
感知和决策都取决于算法。
- 感知:感知过程与深度学习算法有关,涉及数据标记,算法模型开发,高性能分布式训练,性能优化和模型部署。
- 决策:决策过程与传统的机器学习算法和深度学习算法有关。 它涉及行业行为数据的收集,结构化和非结构化数据处理,数据和算法的组合建模,算法开发培训和调整,模型部署以及实时培训反馈。
人工智能系统
随着算法的快速发展,相应的基础架构支持变得越来越重要。 这需要AI系统的支持。 构建AI或机器学习系统的两个基本因素是算法和计算能力。 算法创新是由计算能力的突破驱动的。
下图显示了到2019年AI所需的计算能力。与AlphaGo Zero所需的计算能力相比,AlexNet对计算能力的需求增加了300,000倍。 在这种情况下,算法迭代和算法实现的解决方案对系统提出了更高的要求。
下图显示了AlexNet在2013年的系统。只需在机器上添加GPU,培训费用约为每天500瓦,共7天。 这意味着业务模型的迭代周期约为一周。
在当今企业需要快速开发广告推荐和其他模型的时代,一个星期的模型迭代周期太长了。 因此,越来越多的人对使用大型集群或芯片为AI系统提供更高的计算能力感兴趣。 根据麻省理工学院在2014年进行的比较,一个人在一分钟内可以处理约77张图像,而单个GPU可以在同一时期内处理230张图像。 尽管单个GPU的处理速度不会比人类的处理速度快多少,但我们可以通过GPU集群来实现更大规模,更快的计算。 如下图所示,512个GPU群集在一分钟内可以处理600,00张图像。
在设计AI系统时,您需要专注于如何实现高性能存储,实现机器之间的快速通信以及维护分布式集群的稳定性。 目前,阿里云拥有一个内部Eflops平台,该平台可在三分钟内实现10´1的计算,每分钟消耗128 KW的电量。 这样的系统在2015年之前是不可想象的。我们实现这种功能的能力主要是由于大规模集群和系统底层芯片的可扩展性。
目前,世界上许多企业,特别是中国的企业正在研究和开发高性能芯片,阿里巴巴也不例外。 2019年,阿里巴巴发布了全球性能最高的AI推理芯片,汉光800。该芯片在实际的城市大脑和航空大脑场景中进行了测试,达到了每秒近80万张图像的峰值性能。 这表示性能比上一代提高了约4000%。
通过增加软件和硬件的复杂度,资源管理,有效的调度和系统范围的优化,增加系统复杂度会带来一系列问题。 这是系统开发过程中所有各方都必须面对的挑战。
您必须注意,AI集群不是通用集群。 在AI训练期间,子任务需要定期同步,并且不同机器之间需要高性能的通信。 在大多数情况下,使用基于GPU或NPU的专用组件。 当前,不同的计算模型和交互模式对AI培训构成了重大挑战。
人工智能用于各种阿里巴巴业务场景。 因此,我们可以使用实际的AI应用程序来优化平台设计。 例如,淘宝移动的Pailitao(Snap-and-search)分类模型具有数百万个类别,淘宝的Voice + NLP解决方案以及Alimama的广告推荐系统。
经过优化的Apsara AI平台分为三层,分别是底层的基础架构,中间的培训和推理框架以及顶层的开发平台。 AI平台有三种重要类型:
- 轻量级AI开发平台:这些平台可帮助算法和数据科学家执行一键式开发,调试和部署。
- 人工智能和大数据协作开发平台:这些平台可帮助用户快速开发面向大数据的业务系统。
- AI推理服务平台:这些平台解决了计算资源问题,并提供了推理所需的模型训练,部署和性能监控。
这三种类型的平台支持算法API的输出以及垂直域平台和大脑解决方案的开发。
在深度学习领域,斯坦福大学推出了一个称为DAWNBench的基准。 与以前的优秀性能相比,阿里云的机器学习解决方案将性能提高了约10%。
如今,人工智能技术功能在提高资产利用率和满足不同场景的需求方面发挥着重要作用。 全面的AI技术能力主要取决于以下基础架构和服务:
- 基本硬件:提供一般的计算能力和AI计算能力。 它还通过基础架构即服务(IaaS)提供云功能。
- AI云服务:此基础平台即服务(PaaS)层通过易于访问的软件和硬件环境提供了适合绝大多数用户的计算能力。
- 高性能计算:这将加速核心AI计算引擎。
- AI系统框架:这提供了AI计算模型和跨体系结构建模,迭代和部署的完整抽象。
- AI托管平台:这提高了算法研发的共享部署和输出效率。 它还提供了具有较高用户粘性的开发平台。
智能计算与数据计算
人工智能用于智能计算,大数据用于数据计算。 两种功能相互补充。
人工智能的数据支持
前面提到的算法和计算能力需要大数据量的支持。 数据是算法和计算能力价值的重要体现。
以下两张图片分别显示了2005年和2013年的教皇观众。 随着移动互联网的发展,数据呈指数级增长,大量可用数据改善了深度学习的性能。
1998年,小型MNIST系统的训练数据仅为10 MB,2009年ImageNet的训练数据为200 GB,2017年WebVision具有3 TB数据集,典型产品的视觉系统需要1 PB数据。 大量的数据已帮助阿里巴巴几乎线性地提高了其性能。
让我们看一个我们都熟悉的常见场景,以说明更大的数据量如何提高性能。 在X射线医学诊断领域,研究表明,医生从X射线图像诊断疾病的能力与他们所查看的X射线图像的数量直接相关。 他们检查的图像越多,诊断准确性就越高。 类似地,可以通过大型计算机系统在更多数据上训练当前的医疗引擎系统,以实现更准确的医疗诊断。
AI使大数据更智能
下图显示了大数据领域的趋势。 当前,大数据领域希望提取更多信息,实现实时计算,AI平台并执行在线预测。 所有这些趋势表明,大数据的智能不断提高。
当前,从多个数据源获取不同类型的数据,包括结构化,半结构化和非结构化数据,并将其存储在数据仓库中。 为了利用这些数据的潜在价值,需要智能计算。 在广告推荐的情况下,数据源是用户在淘宝上的点击,浏览和购买。 数据通过脱机或实时同步以及脱机或实时提取-转换-加载(ETL)写入数据仓库。 然后,基于数据仓库或数据湖解决方案生成并训练各种数据模型。 最后,训练结果通过数据服务输出。 如您所见,数据理解和使用过程变得越来越智能。
几年前,混合事务/分析处理(HTAP)包括OLTP和OLAP。 OLAP可以进一步分为大数据,离线和实时分析。 不同的引擎适用于具有不同数据量的案例。 当前,数据服务变得越来越重要。 在某些智能客户服务场景中,实时AI推理服务和应用程序需要数据提取模型。 因此,找到一种将分析与服务结合起来的方法至关重要。 这就是为什么我们目前正在追求混合服务和分析处理(HSAP)的原因。 结合AI,我们可以通过离线和实时数据仓库从数据中提取见解,并通过在线服务将此类见解呈现给用户。
阿里巴巴已经在自己的应用程序中开发了基于人工智能的大数据方法和解决方案。 Double 11 Shopping Festival中的离线计算(批处理),实时计算(流计算),交互式分析和图形计算方案已与Apsara AI平台相结合,提供了由Apsara支持的新一代Apsara大数据产品 AI。
与人工智能类似,大数据也注重性能。 根据TPC基准测试,2019年,阿里云的大数据平台MaxCompute和E-MapReduce在计算性能和成本效益方面显示出显着优势。 下图显示了基准测试结果。
阿里巴巴的AlimeBot目前通过应用基于AI的深度学习和智能感知技术,在用户服务场景中为用户提供智能语音交互服务。 为了实现智能性能,它必须与大数据业务系统紧密联系,例如物流或用户数据系统。
这使我们想到了下一个问题:企业应如何接受AI? 简而言之,要使AI成为现实,我们应该从应用程序需求出发,逐步进行技术创新,就像爱迪生如何改进电灯泡一样。 云提供了低成本,高性能和高稳定性的基础架构,但是对我们而言,关键是明确定义我们的需求。
在过去的几年中,AI领域一直致力于算法创新和演示,但这还远远不够。
AI算法只是系统的一部分。 在实施AI时,企业还必须考虑如何收集数据,获得有用的功能以及执行验证,流程管理和资源管理。
人工智能不是万能的,但也不能忽略。 当企业采用AI时,必须首先从业务考虑出发。 随着数据量和算法数量的增加,建立一支了解业务的数据工程师和算法工程师团队至关重要。 这是智能企业成功的关键。 我们已经提到的所有算法,计算能力和数据解决方案都可以通过使用云中当前可用的服务和解决方案来实现。 这可以帮助企业更快地实施AI。