昨天谈到苹果的Siri进入了mac os***版本:macOS Sierra:Apple统一os体验实质性一步
除了Siri之外,个人助理产品被认为是用户交互关键入口,因此众多大公司参与进来争夺,今天来分别介绍一下典型的几个:
苹果的Siri
Siri成立于2007年,2010年被苹果以2亿美金收购,最初是以文字聊天服务为主,随后通过与全球***的语音识别厂商Nuance合作,Siri实现了语音识别功能。
Siri 技术来源于美国国防部高级研究规划局所公布的 CALO 计划:一个让军方简化处理一些繁复庶务,并具学习、组织以及认知能力的数字助理,其所衍生出来的民用版软件 Siri 虚拟个人助理。
使用者可以通过声控、文字输入的方式,来搜寻餐厅、电影院等生活信息,同时也可以直接收看各项相关评论,甚至是直接订位、订票;另外其适地性(location based)服务的能力也相当强悍,能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。
不过其***的特色,则是人机的互动方面,不仅有十分生动的对话接口,其针对用户询问所给予的回答,也不至于答非所问,有时候更是让人有种心有灵犀的惊喜,例如使用者如果在说出、输入的内容包括了『喝了点』、『家』这些字(甚至不需要符合语法,相当人性化...),Siri 则会判断为喝醉酒、要回家,并自动建议是否要帮忙叫出租车。
微软的Cortana (小娜)
Cortana (中文名:微软小娜)是微软发布的***款个人智能助理。它“能够了解用户的喜好和习惯”,“帮助用户进行日程安排、问题回答等”。
Cortana 可以说是微软在机器学习和人工智能领域方面的尝试。微软想实现的事情是,手机用户与小娜的智能交互,不是简单地基于存储式的问答,而是对话。它会记录用户的行为和使用习惯,利用云计算、搜索引擎和“非结构化数据”分析,读取和“学习”包括手机中的文本文件、电子邮件、图片、视频等数据,来理解用户 的语义和语境,从而实现人机交互。 一个很简单的例子就是,假如手机中记录的日程显示将要参加会议,那么不需任何操作,Cortana 到时就会自动将手机调至会议状态。 这也是微软的 研究,从个人计算机(personal computer)走向个人计算(personal computing)的开始。 微软Windows系统负责人Joe Belfiore(乔北峰)已确认Cortana实现跨平台。可通过App Store、Google Play商店进行下载。
小娜的主要功能有:
聊天功能:讲一个笑话、成语接龙、讲一个故事、唱一首歌、模仿宋小宝
通讯功能:给妈妈打电话、给爸爸发短信
提醒功能:提醒我12:00去舅舅家、将下午12:00的日程更改到18:00
娱乐功能:播放音乐、今日热映、《红楼梦》、名人微博
交通功能:我在哪里、怎么去广场、附近餐馆、今日限行尾号
查询功能:今日天气、澳航航班会晚点吗、使用英语翻译我的名字 、世界上陆地面积***的国家、今年春节 放假安排、今日资讯、双色球、大乐透
召唤小冰:召唤小冰
必应美图:必应美图
智能信息推送:Cortana(小娜)的中心信息存储命名为“笔记本”,将保存用户的地点,个人信息,日历,和联络信息等,基于笔记本中的信息,小娜会在合适的时间和地点推送合适的内容给用户。经过一段时间使用以后,Cortana(小娜) 将越来越了解用户的行为习惯,并更加个性的做出智能推荐。但是也会有强大的隐私功能,允许用户设定Cortana(小娜)笔记本的权限,存储位置,甚至直接编辑笔记本。例如用户可以设置让 Cortana (小娜)观察电邮、短信等,这样 Cortana(小娜) 就会根据行文,自动添加会议、预定等事项的提醒。
第三方服务:除了本地数据和Bing以外,Cortana(小娜)还会接入第三方服务,例如 Foursquare,微信。如果微软主动出击,一开始就开放第三方应用、服务接口,那么Cortana会大大领先 Siri 和 Google Now,尤其微软还打算迅速将 Cortana 放进Windows 和 Xbox 等平台上。
Google now
Google Now是谷歌在I/O开发者大会上随安卓4.1系统同时推出的一款应用,它会全面了解你的各种习惯和正在进行的动作,并利用它所了解的来为你提供相关信息。
Google Now 的典型功能:
新的应用会更加方便用户收取电子邮件,当你接收到新邮件时,它就会自动弹出以便你查看。
还包括办理登记手续的 QR CODE 终端的更新,不过这一功能目前仅限于美国联合航空公司使用。
推出了步行和行车里程记录功能。这个计步器功能可通过 Android 设备的传感器来统计用户每月行驶的里程,包括步行和骑自行车的路程。
特色功能包括:汽车租赁、演唱会门票和通勤共享方面的卡片;公共交通和电视节目的卡片进行改善,这些卡片现在可以听音识别音乐和节目信息;用户可以为新媒体节目的开播设定搜索提醒,同时还可以接收实时NCAA橄榄球比分。
Now on Tap,用户通过即点即得的方式获取所需要的内容。
亚马逊 echo
亚马逊推出的一款硬件产品Echo。该产品为一套内置语音助手的扩音器设备,旨在为用户的房间提供独立专注的音控系统。
该设备支持闹铃、音乐播放控制、天气查询、网络搜索,以及新闻查询等多种功能,而所有的操作都通过语音控制完成。此外该设备还能通过蓝牙和WiFi与Fire Phone连接,或通过浏览器与iOS、Android及PC设备连接,以实现多媒体播放功能。
类似苹果Siri语音助手,唤醒亚马逊Echo需要大声说“Alexa”。拥有Fire OS或Android设备的用户将能享用Echo的全部功能,而iOS用户则只在音乐流播放方面提供支持。
亚马逊Echo的另外一个令人印象深刻的功能就是音乐播放。如果你是亚马逊Prime服务的订阅者,那么你就可以让Echo迅速生成播放列表,比如基于风格和歌手,你还可以通过Alexa来语音操控亚马逊音乐应用的播放、歌曲购买等。起初,Echo可兼容Amazon Music、iHeartRadio、Tuneln等应用,Alexa还允许用户轻松地自Amazon Music购买音乐。
当前,Echo存在的一个***的局限性就是服务内容很少。Echo只能提供维基百科以及少部分数据库的内容,例如笑话内容库,它甚至不能调用谷歌或Bing搜索结果。不过,当遇到不能回答的内容时,Echo会传送一个Bing搜索链接到用户的手机或平板电脑上。也许,未来亚马逊和微软会联手将Bing搜索引擎引入到Echo中。
与此同时,亚马逊所承诺的智能家居集成特性暂时也并未体现出现,因此用户还不能够使用Echo来控制智能灯泡或者是恒温器。也许,未来Alexa会变得越来越智能,更好地为我们工作,毕竟它当前仍处于测试阶段。
此外,Echo在播放音乐的时候也存在瑕疵。如果作为一款蓝牙音箱,亚马逊Echo可能并不算出色。虽然拥有所谓的360度扬声器,低音表现尚可,但是高音时往往会出现声音失真的情况,表现非常不专业。
如果您并非亚马逊Prime会员,那么Echo的零售价为199美元。以这个价格来讲,我们能够在市场中找到很多音质更好的蓝牙音箱。
其他的国内比较有名的还有百度的度秘等,这里就不一一分析了。
关键技术
前面说了这么多的功能,再来简单说一下实现个人虚拟助理的背后的关键技术,详细后面会持续分析。
1.语音识别和语音合成技术。
语音识别技术是把用户的口语转化成文字,而语音合成则是把返回的文字结果转化成语音输出。
2.知识搜索技术
(Computational Knowledge)这个技术的代表是WolframAlpha 。不同于搜索互联网信息,Wolfram|Alpha将从公众的(包括公开的网页等)和获得授权的资源中,发掘、建立起一个异常庞大的经过组织的数据库,再利用高级的自然语言算法进行处理,最终构造出一个类似于谷歌搜索的工具。
和网页搜索技术不同的是,在这个系统中,得到的答案结构化程度很高,比如搜索China,能得到和中国相关的各种参数以及资料,并以接近表格的方式呈现。Wolfram|Alpha也能理解部分自然语言,比如输出How old are you,其会回答Wolfram|Alpha的年龄。
3.知识库&知识库推断
知识图谱前面写过专栏:知识图谱扫盲
相比于网页搜索技术,基本以一个词条或者主题为单位,因此得到的数据价值高,知识量大,并且结构化程度好。相比于知识计算技术,这些技术需要人的参与,这有利也有弊,利就是,毕竟暂时人比机器聪明,编辑出来的知识更丰富,准确;弊就是,人力有限,即使像维基那样,发动社区的力量,也不能产生足够的知识,而知识计算,理论上,只需要算法够,是可以产生“***”的知识的。
4.多轮对话&语义理解
通过和用户多轮对话,掌握用户的 意图的关键技术。
5.用户画像和推荐技术
根据用户的使用行为,以及其他数据,掌握用户的特点,习惯,是实现个性化服务的关键技术。
在用户画像的技术上,主动给用户推荐用户想要的服务以及内容,这个就需要用到推荐技术。
【本文为51CTO专栏作者“大数据和云计算”的原创稿件,转载请通过微信公众号获取联系和授权】