Amazon Transcribe 是一项自动语音识别 (ASR) 服务,使开发人员能够轻松地为其应用程序添加语音转文本功能。通过使用 Amazon Transcribe API,您可以分析 Amazon S3 中存储的音频文件,并让该服务返回一个转录的语音文本文件。
Amazon Transcribe 可用于很多常见应用程序,包括客户服务通话转录,以及在音频和视频内容上生成字幕。该服务可以转录以常见格式(例如 WAV 和 MP3)存储的音频文件,并为每个词附加时间戳,以便您可以通过搜索文本轻松找到原始源中的音频。Amazon Transcribe 正在不断学习和改进,以跟上语言的发展。
主要功能
便于阅读的转录
大多数语音识别系统输出的都是一连串没有标点符号的文本。Amazon Transcribe 采用深度学习功能自动添加标点符号和格式,从而使输出内容更容易理解,无需进一步编辑即可直接使用。
自定义词汇表
使用 Amazon Transcribe,您可以扩展和自定义语音识别词汇表。您可以将新词添加到基本词汇表中,并生成特定于使用案例的高准确转录,例如产品名称、域特定术语或个人姓名。
生成时间戳
Amazon Transcribe 会为每个词返回时间戳,以便您可以通过搜索文本轻松找到原始录音中的音频。
识别多个讲话者
Amazon Transcribe 能够识别出讲话者的变化,并相应地确定转录文本的归属。这样可以显著减少转录具有多个讲话者的音频(例如电话、会议和电视节目)所需的工作量。
支持广泛的使用案例
Amazon Transcribe 旨在为各种质量的音频提供准确的自动转录。您可以为任何视频或音频文件生成字幕,甚至可以转录低质量的电话录音,例如客户服务电话。
声道合成(即将推出)
Amazon Transcribe 将每个讲话人的声音都录制在不同的声道中,从而更好地处理音频。联络中心可以将单个音频文件提交到 Amazon Transcribe,后者会识别并分解出两个声道,转录每个声道的讲话内容,然后使用声道标签制作协调的合并脚本,从而令联络中心受益匪浅。
使用案例
Amazon Transcribe 可以为广泛的使用案例提供转录服务,包括客户服务、字幕、搜索与合规性。
改善客户服务
通过将音频输入转换成文本,Amazon Transcribe 可帮助您构建能够搜索和分析语音输入的文本分析应用程序。客户联络中心可以使用 Amazon Transcribe 转录语音通话,并借助其他 AWS 产品 (例如 Amazon Comprehend) 挖掘数据以提取对话中的含义和意图,从而获取见解。
字幕工作流
Amazon Transcribe 可以自动生成带时间戳的字幕 (随视频内容一起显示),从而帮助内容生成和媒体发行者提高到达率和访问量。
音频存档分类
借助该服务,您可以将音频和视频资源转录成完全可搜索的存档,以便进行合规性监控和风险管理。客户可以使用 Amazon Transcribe 将音频转换成文本,使用 Amazon ElasticSearch Service 在音频/视频库内编写索引并执行基于文本的搜索。