“虚拟个人助理” 一览-51CTO.COM

昨天谈到苹果的Siri进入了mac os***版本：macOS Sierra：Apple统一os体验实质性一步

除了Siri之外，个人助理产品被认为是用户交互关键入口，因此众多大公司参与进来争夺，今天来分别介绍一下典型的几个：

苹果的Siri

Siri成立于2007年，2010年被苹果以2亿美金收购，最初是以文字聊天服务为主，随后通过与全球***的语音识别厂商Nuance合作，Siri实现了语音识别功能。

Siri 技术来源于美国国防部高级研究规划局所公布的 CALO 计划：一个让军方简化处理一些繁复庶务，并具学习、组织以及认知能力的数字助理，其所衍生出来的民用版软件 Siri 虚拟个人助理。

使用者可以通过声控、文字输入的方式，来搜寻餐厅、电影院等生活信息，同时也可以直接收看各项相关评论，甚至是直接订位、订票;另外其适地性(location based)服务的能力也相当强悍，能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。

不过其***的特色，则是人机的互动方面，不仅有十分生动的对话接口，其针对用户询问所给予的回答，也不至于答非所问，有时候更是让人有种心有灵犀的惊喜，例如使用者如果在说出、输入的内容包括了『喝了点』、『家』这些字(甚至不需要符合语法，相当人性化...)，Siri 则会判断为喝醉酒、要回家，并自动建议是否要帮忙叫出租车。

微软的Cortana (小娜)

Cortana (中文名：微软小娜)是微软发布的***款个人智能助理。它“能够了解用户的喜好和习惯”，“帮助用户进行日程安排、问题回答等”。

Cortana 可以说是微软在机器学习和人工智能领域方面的尝试。微软想实现的事情是，手机用户与小娜的智能交互，不是简单地基于存储式的问答，而是对话。它会记录用户的行为和使用习惯，利用云计算、搜索引擎和“非结构化数据”分析，读取和“学习”包括手机中的文本文件、电子邮件、图片、视频等数据，来理解用户的语义和语境，从而实现人机交互。一个很简单的例子就是，假如手机中记录的日程显示将要参加会议，那么不需任何操作，Cortana 到时就会自动将手机调至会议状态。这也是微软的研究，从个人计算机(personal computer)走向个人计算(personal computing)的开始。微软Windows系统负责人Joe Belfiore(乔北峰)已确认Cortana实现跨平台。可通过App Store、Google Play商店进行下载。

小娜的主要功能有：

聊天功能：讲一个笑话、成语接龙、讲一个故事、唱一首歌、模仿宋小宝

通讯功能：给妈妈打电话、给爸爸发短信

提醒功能：提醒我12:00去舅舅家、将下午12:00的日程更改到18:00

娱乐功能：播放音乐、今日热映、《红楼梦》、名人微博

交通功能：我在哪里、怎么去广场、附近餐馆、今日限行尾号

查询功能：今日天气、澳航航班会晚点吗、使用英语翻译我的名字、世界上陆地面积***的国家、今年春节放假安排、今日资讯、双色球、大乐透

召唤小冰：召唤小冰

必应美图：必应美图

智能信息推送：Cortana(小娜)的中心信息存储命名为“笔记本”，将保存用户的地点，个人信息，日历，和联络信息等，基于笔记本中的信息，小娜会在合适的时间和地点推送合适的内容给用户。经过一段时间使用以后，Cortana(小娜) 将越来越了解用户的行为习惯，并更加个性的做出智能推荐。但是也会有强大的隐私功能，允许用户设定Cortana(小娜)笔记本的权限，存储位置，甚至直接编辑笔记本。例如用户可以设置让 Cortana (小娜)观察电邮、短信等，这样 Cortana(小娜) 就会根据行文，自动添加会议、预定等事项的提醒。

第三方服务：除了本地数据和Bing以外，Cortana(小娜)还会接入第三方服务，例如 Foursquare，微信。如果微软主动出击，一开始就开放第三方应用、服务接口，那么Cortana会大大领先 Siri 和 Google Now，尤其微软还打算迅速将 Cortana 放进Windows 和 Xbox 等平台上。

Google now

Google Now是谷歌在I/O开发者大会上随安卓4.1系统同时推出的一款应用，它会全面了解你的各种习惯和正在进行的动作，并利用它所了解的来为你提供相关信息。

Google Now 的典型功能：

新的应用会更加方便用户收取电子邮件，当你接收到新邮件时，它就会自动弹出以便你查看。

还包括办理登记手续的 QR CODE 终端的更新，不过这一功能目前仅限于美国联合航空公司使用。

推出了步行和行车里程记录功能。这个计步器功能可通过 Android 设备的传感器来统计用户每月行驶的里程，包括步行和骑自行车的路程。

特色功能包括：汽车租赁、演唱会门票和通勤共享方面的卡片;公共交通和电视节目的卡片进行改善，这些卡片现在可以听音识别音乐和节目信息;用户可以为新媒体节目的开播设定搜索提醒，同时还可以接收实时NCAA橄榄球比分。

Now on Tap，用户通过即点即得的方式获取所需要的内容。

亚马逊 echo

亚马逊推出的一款硬件产品Echo。该产品为一套内置语音助手的扩音器设备，旨在为用户的房间提供独立专注的音控系统。

该设备支持闹铃、音乐播放控制、天气查询、网络搜索，以及新闻查询等多种功能，而所有的操作都通过语音控制完成。此外该设备还能通过蓝牙和WiFi与Fire Phone连接，或通过浏览器与iOS、Android及PC设备连接，以实现多媒体播放功能。

类似苹果Siri语音助手，唤醒亚马逊Echo需要大声说“Alexa”。拥有Fire OS或Android设备的用户将能享用Echo的全部功能，而iOS用户则只在音乐流播放方面提供支持。

亚马逊Echo的另外一个令人印象深刻的功能就是音乐播放。如果你是亚马逊Prime服务的订阅者，那么你就可以让Echo迅速生成播放列表，比如基于风格和歌手，你还可以通过Alexa来语音操控亚马逊音乐应用的播放、歌曲购买等。起初，Echo可兼容Amazon Music、iHeartRadio、Tuneln等应用，Alexa还允许用户轻松地自Amazon Music购买音乐。

当前，Echo存在的一个***的局限性就是服务内容很少。Echo只能提供维基百科以及少部分数据库的内容，例如笑话内容库，它甚至不能调用谷歌或Bing搜索结果。不过，当遇到不能回答的内容时，Echo会传送一个Bing搜索链接到用户的手机或平板电脑上。也许，未来亚马逊和微软会联手将Bing搜索引擎引入到Echo中。

与此同时，亚马逊所承诺的智能家居集成特性暂时也并未体现出现，因此用户还不能够使用Echo来控制智能灯泡或者是恒温器。也许，未来Alexa会变得越来越智能，更好地为我们工作，毕竟它当前仍处于测试阶段。

此外，Echo在播放音乐的时候也存在瑕疵。如果作为一款蓝牙音箱，亚马逊Echo可能并不算出色。虽然拥有所谓的360度扬声器，低音表现尚可，但是高音时往往会出现声音失真的情况，表现非常不专业。

如果您并非亚马逊Prime会员，那么Echo的零售价为199美元。以这个价格来讲，我们能够在市场中找到很多音质更好的蓝牙音箱。

其他的国内比较有名的还有百度的度秘等，这里就不一一分析了。

关键技术

前面说了这么多的功能，再来简单说一下实现个人虚拟助理的背后的关键技术，详细后面会持续分析。

1.语音识别和语音合成技术。

语音识别技术是把用户的口语转化成文字，而语音合成则是把返回的文字结果转化成语音输出。

2.知识搜索技术

(Computational Knowledge)这个技术的代表是WolframAlpha 。不同于搜索互联网信息，Wolfram|Alpha将从公众的(包括公开的网页等)和获得授权的资源中，发掘、建立起一个异常庞大的经过组织的数据库，再利用高级的自然语言算法进行处理，最终构造出一个类似于谷歌搜索的工具。

和网页搜索技术不同的是，在这个系统中，得到的答案结构化程度很高，比如搜索China，能得到和中国相关的各种参数以及资料，并以接近表格的方式呈现。Wolfram|Alpha也能理解部分自然语言，比如输出How old are you，其会回答Wolfram|Alpha的年龄。

3.知识库&知识库推断

知识图谱前面写过专栏：知识图谱扫盲

相比于网页搜索技术，基本以一个词条或者主题为单位，因此得到的数据价值高，知识量大，并且结构化程度好。相比于知识计算技术，这些技术需要人的参与，这有利也有弊，利就是，毕竟暂时人比机器聪明，编辑出来的知识更丰富，准确;弊就是，人力有限，即使像维基那样，发动社区的力量，也不能产生足够的知识，而知识计算，理论上，只需要算法够，是可以产生“***”的知识的。

4.多轮对话&语义理解

通过和用户多轮对话，掌握用户的意图的关键技术。

5.用户画像和推荐技术

根据用户的使用行为，以及其他数据，掌握用户的特点，习惯，是实现个性化服务的关键技术。

在用户画像的技术上，主动给用户推荐用户想要的服务以及内容，这个就需要用到推荐技术。

【本文为51CTO专栏作者“大数据和云计算”的原创稿件，转载请通过微信公众号获取联系和授权】

戳这里，看该作者更多好文