随着技术和生态的不断演进、应用场景的不断探索,机器学习已然不再仅仅停留在实验室当中。无论是日新月异的互联网应用,还是求新求变的企业转型,机器学习都得到了广泛的应用,逐步成为驱动业务的关键技术。
机器学习在近 30 多年已发展为一门多领域交叉学科,也已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA 序列测序、语音和手写识别、战略游戏和机器人等领域。
为了帮助大家更便捷的解决这些实际问题,让数据科学家、算法工程师、业务开发者都能轻松驾驭机器学习,AWS 推出了各式各样的机器学习工具,包括:ML 服务类、API 类、AI 服务工具类等。
今天,我们就对 AWS 的部分优秀机器学习工具做一个整理,分享给各位行业从业者。
一. ML 服务类机器学习工具
1. Amazon SageMaker
Amazon SageMaker 是一项完全托管的服务,可为每位开发人员和数据科学家提供快速构建、训练和部署机器学习 (ML) 模型的能力。
开发者可以在一个集成的可视界面中编写代码、跟踪实验、可视化数据以及进行调试和监控。从完整的平台 IDE,到具体代码与 API,SageMaker 都有一种 Pythonic 精神,简洁易用,同时提供高级的接口。消除了机器学习过程中的每个步骤的繁重工作,让开发者能够更轻松地开发高质量模型,提高开发人员的工作效率。
2020 年 4 月底,SageMaker 在 AWS 中国的北京区域和宁夏区域上正式开放。就在前不久,在国内开始正式开放。这标志着 AWS 人工智能、机器学习平台服务的关键技术已全面进入中国。
工具亮点:
- 这是第一个用于机器学习的完全集成式开发环境 (IDE)
- 单一集成的可视界面操作,大幅提高开发效率
- 可自动构建、训练和调试完全可视和可控的模型
- 使用 Amazon SageMaker Ground Truth 将数据标记成本降低多达 70%
- 使用 Amazon Elastic Inference 可将机器学习推理成本降低多达 75% API 类
二. API 类机器学习工具
1. 文本转语音:Amazon Polly
Amazon Polly 是一项云服务,可以将文本转化为逼真的语音。支持多种语言,并包含各种逼真的声音,因此你可以构建在多个位置工作的支持语音的应用程序,并为你的客户使用理想的语音。
此外,Amazon Polly 还包含许多神经文本到语音转换 (NTTS) 语音,通过新的机器学习方法为语音质量带来突破性的改进,从而为客户提供尽可能最自然的文本到语音的似人类的语音。神经 TTS 技术还支持播音员风格,专为新闻播报使用案例量身定制。
Amazon Polly 的常用案例包括移动应用程序(如新闻阅读器、游戏、电子学习平台)、视障人士辅助功能应用程序以及快速增长的物联网 (IoT) 细分市场。Alexa 语音助手的品牌定制语音服务,就是通过 Amazon Polly 语音合成平台提供的。
工具亮点:
- 高质量:新的神经 TTS 和一流的标准 TTS 技术,可合成发音精度极高的超自然语音;
- 支持多种语言和语音:支持数十种语音语言,并为大多数语言提供男性和女性语音选项。
- 经济实惠:Amazon Polly 采用按需付费定价模式,每字符转换成本低廉,并且支持无限次重放,使企业能够以经济高效的方式为应用程序添加语音功能。
2.语音转文本:Amazon Transcribe
Amazon Transcribe 是一项自动语音识别 (ASR) 服务,让开发人员能够轻松地为其应用程序添加语音转文本功能。通过使用 Amazon Transcribe API,可以分析 Amazon S3 中存储的音频文件,并让该服务返回一个转录的语音文本文件。开发人员还可以将实时音频流发送到 Amazon Transcribe,并实时接收转录流。
Amazon Transcribe 可用于很多常见应用程序,包括客户服务通话转录,以及基于音频和视频内容生成字幕。该服务可以转录以常见格式(例如 WAV 和 MP3)存储的音频文件,并为每个词附加时间戳,以便开发者可以通过搜索文本轻松找到原始源中的音频。
工具亮点:
- 便于阅读的转录:Amazon Transcribe 采用深度学习功能自动添加标点符号和格式,从而使输出内容更容易理解,无需进一步编辑即可直接使用。
- 生成时间戳:Amazon Transcribe 会为每个词返回时间戳,以便可以通过搜索文本轻松找到原始录音中的音频。
- 自定义词汇表:Amazon Transcribe 支持扩展和自定义语音识别词汇表。使用者可以将新词添加到基本词汇表中,并生成使用案例特定的高度准确的转录,例如产品名称、域特定术语或个人姓名。
- 识别多个讲话者:Amazon Transcribe 能够识别出讲话者的变化,并相应地确定转录文本的归属。这样可以显著减少转录具有多个讲话者的音频(例如电话、会议和电视节目)所需的工作量。
3.从文档中提取文本和数据:Amazon Textract
Amazon Textract 是一项从扫描的文档中自动提取文本和数据的服务。Amazon Textract 的功能不只是简单的光学字符识别 (OCR),它还可以识别表单中字段的内容和表格中存储的信息。
借助 Textract,开发人员可以快速自动执行文档工作流,数小时可处理数百万个文档页面。此外,开发人员还可以创建智能搜索索引,构建自动批准工作流,并通过标记可能需要校订的数据,更好地保持对文档存档规则的符合性。
结合 Amazon Augmented AI (Amazon A2I) 后,开发人员可以通过内置人工审核来管理需要人工判断的细微或敏感工作流,从而取得高确信度的预测或对预测进行持续审计。
工具亮点:
- 快速准确地提取数据:Amazon Textract 可以自动检测文档的布局和页面上的关键元素,了解任何嵌入式表单或表格中的数据关系,并提取附带完整上下文的所有内容。
- 无需维护代码或模板:借助 Amazon Textract 预先经过训练的机器学习模型,无需为数据提取编写代码,不需要为可能收到的每个文档或表单维护代码,也不必担心页面布局随着时间的推移而发生变化。
- 更低的文档处理成本:Amazon Textract 以非常低的成本提供 OCR 和结构化数据提取(表单和表格),你只需按照实际使用量付费,无需预先承诺或长期合同。
三. AI 服务类机器学习工具
1. 代码审查工具 —— Amazon CodeGuru
Amazon CodeGuru 是一种机器学习服务,可自动执行代码审查,并提供应用程序性能建议。它可以帮助开发人员找到影响应用程序性能的代码行,并版主进行问题排查,然后提供修复或改进代码的具体建议。
CodeGuru 由机器学习、最佳实践以及经在开源项目和 Amazon 内部分析数百万项代码审查和数千个应用程序后总结出来的经验教训提供支持。
2. 快速构建深度学习应用程序 —— AWS Deep Learning AMI
AWS Deep Learning AMI (DLAMI) 是在云中进行深度学习的一站式商店,可以为机器学习从业人员和研究人员提供基础设施和各种工具,从而加快在云中进行任意规模的深度学习的速度。
通过 DLAMI,开发人员可以快速启动预先安装了常见深度学习框架和界面(如 TensorFlow、PyTorch、Apache MXNet、Chainer、Gluon、Horovod 和 Keras)的 Amazon EC2 实例来训练复杂的自定义 AI 模型、试验新算法或学习新技能和技巧。
无论需要 Amazon EC2 GPU 还是 CPU 实例,都无需为 Deep Learning AMI 支付额外费用。只需为存储和运行应用程序所需的 AWS 资源付费。
AWS Deep Learning AMI 可在专为推理设计的基于 Intel 的 Amazon EC2 C5 实例上运行。AMI 预安装了 NVIDIA CUDA 和 cuDNN 驱动程序,可以有效缩短完成计算所需的时间。
为了简化软件包的管理和部署,AWS Deep Learning AMI 安装了 Anaconda2 和 Anaconda3 数据科学平台,可以进行大规模数据处理、预测分析和科学计算。
工欲善其事必先利其器,想要进行机器学习方面的工作研究,配合上优秀的工具一定可以事半功倍。