随着移动网络条件的改善、即时通讯工具功能的加强,人们之间的远程沟通方式变得越来越多元化。从最基础的文字,到现在风靡移动互联网的语音应用(如微信、啪啪等),不同信息传播形态之间的高效转换成为下一个亟需解决的问题。但是对于团队力量有限的一些开发者或创业者来说,自主研发如语音识别、图像识别之类的技术难度较大。中国电信天翼开放平台将这部分工作整合进了自身体系之内,为开发者提供了强有力的数字内容智能识别支持。
天翼开发平台的数字内容智能识别能力目前包括以下四个方面:
语音合成:调用此能力可通过用户提交的文本信息,对此文本数据进行语音合成,并获取生成的音频数据,即将文本转换为语音。
手写智能识别:调用此能力可通过用户提交的笔迹坐标获取该笔迹数据的识别结果,即可智能识别手写笔迹数据。
语音智能识别:调用此能力可对用户提交的语音进行识别,即可智能地将语音信息转换成文本。
图像智能识别:调用此能力可对用户提供的图片信息进行数字识别,即可智能地将印刷图片转换成为电子图片。
所以,即使开发者欠缺对数字内容识别的研发能力,天翼开放平台也能够帮助他们跳过这一环,迅速处理好产品的后端,从而能够把精力放到与用户直接产生交互行为的前端上。
如今很多开发者纷纷开始将目光转向微信、UC、百度等拥有亿级用户量的超级 App 上,Web App、轻应用等概念随之兴起,借助这些平台进行轻量级开发成为创业者青睐的方式。但这些平台本身主要提供的是渠道方面的支持,当开发者面临需要处理多种数字内容转换的场景时,轻量级开发原本具有的优势就会因技术问题被削弱。
以微信为例,其产品本身的特性使得用户习惯于进行语音交互。但并不是所有开发者都具有一直人工客服团队。此时通过调用天翼开放平台的语音识别能力,就能够在后台将用户表达的语意转化为文本并进行匹配分析,从而可以回复出用户希望获得的答案。
在移动终端逐渐普及之后,人们走在路上不仅要用眼睛去看,用耳朵去听的需求也逐渐浮出水面,市面上逐渐兴起的各种电台类应用就是例证。天翼开放平台的语音合成能力(文本转语音)在涉及文章阅读、外文单词拼读的功能上有着广泛的应用场景。在搜狐新闻客户端里,用户就可以通过点击每条新闻上面的虚拟播放按钮,让客户端为自己读新闻。
此外,随着整个行业对身份认证和安全系数要求越来越高,对用户身份的验证成为未来的重要环节。用户的笔迹、签名、照片、扫描证件等都会成为个人信息的一部分。这些内容如何准确高效地以数字形式保存下来?手写和图像的智能识别能力将是一片蕴藏丰富的蓝海。
目前天翼开放平台的语音智能识别能力调用次数已超过一万,其他能力也都达到五千次左右。未来天翼开放平台必将会成为重要的数字内容输入输出的枢纽。