如何让机器更懂你?是时候了解NLP了

人工智能 语音识别
NLP有着广泛的应用范围,翻译和语言生成、分类和聚合、情感分析,以及其他信息提取、Siri等虚拟助手都在NLP的应用范围之内。下面我们将介绍一下NLP的现状以及其适用范围。

自然语言处理(NLP)在语音和文本方面的改进将助力主流技术的发展。例如以人类自然发音朗读电子邮件时,如果用户对电子表格中的数据提出质疑,Excel会自动以图表和数据透视表的形式回答相关问题。

[[340482]]

随着NLP变得更加准确并被广泛使用,其不仅能够支持预置主题的聊天机器人,还能够处理半结构化和非结构化数据。知识挖掘功能可以帮助用户洞察业务流程、资产和负债信息,从而帮助创建更加合理的工作流程以及更加实时地监测企业的运营。

NLP有着广泛的应用范围,翻译和语言生成、分类和聚合、情感分析,以及其他信息提取、Siri等虚拟助手都在NLP的应用范围之内。例如拼写检查、对电子邮件和消息的回复给出建议等简单的NLP如今已经被广泛使用。

Apexanalytix负责应用与高级技术的高级副总裁Walt Kristick解释说:“NLP可以将单词分解为最基础的形态,识别它们之间的模式、规则和联系。人类的书面用语和口语在经由计算机算法解析和翻释之后,系统能够学习和理解人类语言。提高NLP对文本和非相关数据源的分析和提取含义的能力,尤其在医疗保健和生命科学领域当中,已经成为了用户的关注点。”

下面我们将介绍一下NLP的现状以及其适用范围。

1. NLP服务的优势

除了Python NLTK、Sanford CoreNLP和Apache OpenNLP之类的框架外,许多算法也可用于构建NLP任务,但是往往效率越高的模型,其规模也就越庞大。有着170亿参数的微软图灵自然语言生成模型是有史以来发布的最大模型,即便是BERT和GPT-2,其参数也有数十亿之多。

即便企业拥有NLP专家,如果想根据自身情况定制相关的模型也是一项挑战。微软主管对话式AI的副总裁Lili Cheng警告说:“仅仅使用这些模型并不能处理企业中复杂的事情。对于许多企业而言,托管这些大型模型、对其有效管理和让其正常运行非常是具有挑战性的。虽然有人愿意这样做,但是我们相信更多的客户希望有针对性地进行定制和添加信息。”

[[340483]]

当领导者开始迅速有针对性地招募某一任务所需要的所有人员,那么就意味着变革开始了。这三种方式都可以帮助领导者建立一个更好的新常态。即使是拥有AI人才的企业也经常会从微软、亚马逊、谷歌和IBM等提供商那里购买NLP服务,以使专业开发人员和商业用户也能够利用该技术。

作为微软的客户,Telefonica在内部设置有AI小组。即便如此,为了让没有开发人员专业知识的业务用户可以使用Q&A Maker等服务来创建自己的工具,Telefonica也在使用微软的Power平台。Cheng说:“为了让用户能够以搜索或对话的方式提出问题和获得答案,你可以将其指向PDF文件或网页版FAQ 。”

NLP的一个关键应用是聊天机器人。聊天机器人可以帮助接受订单、从FAQ中提供答案、进行路线查询、预定会议并在必要时与人类进行对话。

Confirmit产品管理高级总监Paul Quinn表示,NLP是一种强大的工具,可帮助企业从大量文本和语音数据中获取客户洞察力。他说:“企业通常都拥有超过100TB的非结构化数据,从呼叫中心提示、客户电子邮件到调查评论,无所不包。如果企业想改善客户体验或是想获得有关自己品牌的详细洞察力,那么他们都可以使用NLP筛选大量数据,并从中找到有用数据。”

IBM研究员兼AI首席架构师Dakshi Agrawal表示,不仅仅是零售业,其他面向客户的行业也都可从NLP中受益。任何与客户打交道的企业都可以利用NLP从他们的互动中获得洞察力。Agrawal说:“与和外部客户及合作伙伴打交道一样,许多企业也将这一技术用到了内部员工和HR交互当中。”

为了在客户使用不同术语进行报告时,将问题的分组变得更为准确,除了关键词提取外,还可以在主题聚合中使用句子嵌入等NLP技术。这样可帮助发现趋势性问题或重复出现的问题。

独立的英国运输行业监管机构Transport Focus已经在使用Signoi来查看通勤者和旅客对各种火车服务的最大担忧。例如,商务旅客对火车上人满为患感到不满意,而那些乘坐火车旅行的人希望停车位更便利一些,放置行李和自行车的空间更大一些。

微软的Power BI业务分析服务和Salesforce.com的Tableau均提供NLP自己生成语言对结果进行解释的功能。当用户可以输入有关其数据的问题后,这些服务可以提供相应的图表或自动分析。

2. 了解企业知道什么

NLP可帮助企业了解其已经知道了哪些知识。ABBY的合同文本分析、Exigent的合同管理解决方案、Seal的合同发现与分析等由AI支持的专用工具可从合同中提取条款和期限,从而帮助企业了解自己承诺了哪些内容。XML联合发明者Jean Paoli创立了一家名为Docugami的初创企业。该公司成立的初衷是让结构化程度较低的文档实现这一功能。

[[340484]]

Paoli 说:“企业的数据只有15%被存储在了数据库当中。我们在交流中都会用到文本、电子邮件和文档。结构化数据库不会告诉我们问题的真相,但是文档会。对于像商业房地产这类的文件密集型业务,一线业务用户平均每周要撰写15份租赁协议。每到周一,经理会发出一连串提问:‘你做了哪些工作?截止日期是哪天?有没有谈到停车位的问题?他们是否希望我们保留所有权?’一旦签署文件,公司就必须要遵守,不幸的是这些信息往往会被淹没在大量的文件当中。”

无论是星巴克要求房东就租赁协议重新展开谈判,还是餐厅需要了解其保险政策的内容,许多事情现如今已经变得举足轻重。而这些“隐性数据”可以取代星期一上午的例会,提高业务敏捷性。

Paoli说:“由于企业目前正在重新考虑自己的业务模式,这时使用NLP来分析业务文档就变得尤为重要。企业可能不得不就所有的事情重新进行谈判,他们需要了解自己的义务和风险。”专业的服务公司Accenture就是这样做的,他们通过NLP对100多万份合同进行了分析,以了解自己的承诺和责任。

对于那些没有自己NLP专家的企业而言,Docugami的SaaS产品是一个不错的选择,其有30个示例文档可供使用,并且可自动从存放业务文档的文件夹中进行选择,在30分钟内即可向创建文档的业务用户进行反馈。随后Docugami会将信息存入数据库中,以帮助创建可通过浏览器查阅的仪表板,或是与Excel和Tableau进行集成。

3. 让会议传递的信息变得更加明确

虽然一些企业的电话已按要求被记录下来,但是却很少被分析,问题的症结在于从会议和对话中提取有用信息是一项繁重的人力劳动。又有多少企业会通过会议上的发言内容了解项目进度或截止日期呢?

尽管员工花在会议上的时间在30%,甚至更多,但是会议中的大量信息却无法像其他的业务数据那样被捕获。PowerPoint幻灯片和Teams会议中的实时字幕以及Azure Streams广播平台中可搜索的实时会议转录功能也都可以不需要人工记录就可以提供颇具效率的转录。

除了图像识别外,这些平台未来还会使用转录和文档分析总结提炼会议中的主要内容,以便团队在会议结束后的后续工作中能够查阅这些内容。在过去15年中,桥水基金(Bridgewater Associates)记录了所有的内部会议,所有员工都可查阅这些会议记录。尽管如此,还是很少有人去翻阅,其中一个原因是这些记录难以被检索到。为了解决这个问题,桥水基金开始使用Otter提取这些会议内容。

具备语音转文本功能的Azure Cognitive Services API不久将开通转录上传至OneDrive上的音频文件的功能。虽然使用这些API的转录应用程序已经被开发人员开发出来了,但是如果直接将这一功能内置到平台中无疑可以得到更广泛的使用。

4. 分析与准确性

虽然用户可以通过时间轴的方式在内容中进行检索,但是NLP的最佳使用方法并不是一字不差的完整转录。

Otter会将提取的标签作为摘要,以方便用户了解文本中的内容。自动编写的文档摘要正在在成为工具,例如IBM Watson的自然语言理解。虽然Otter也在研发,但是用户仍必须要记住相关内容才能查阅。NLP未来会加入会议分析功能。例如同一主题是否会被继续讨论,截止日期是否会被不断推迟等等。

[[340485]]

转录的准确性是这一切的生命线,而准确性的衡量非常复杂。虽然NLP系统在许多方面的准确性已经可与人类媲美,但是它们还是存在短板,例如无法对你还未着手做的工作进行准确比较,没有一个统一的衡量标准。

微软的研究人员称:“虽然如今多模式系统中融合了各种功能,但是整合在一起就不一定可行了。例如,用户可能会发现对话系统很出色,但是将语音、语言和视觉和文档整合在一起,那么对话系统并不能真正发挥很好的作用。”

录音质量、背景噪音、口音以及谈话内容都会影响到转录的准确性。如果背景安静且说话的人母语为英语,那么准确率会在95%以上。在实际使用中虽然转录会有一些作用,但是距离完美还相差甚远。

用户在使用NLP之前就要明确自己能够接受的错误率是多大。此外,要想能够被准确识别,用户还应精心准备好行业术语、产品名称、员工姓名以及相应的概念和相关词汇。无论哪种NLP工具都不例外。

微软的研究人员称:“我们的期望值不能太高。人工智能虽然不能解决所有的问题,但是自然语言工具却可以改善许多问题。如何有效地将信息组织起来,从而从文档中挖掘出更多的信息,如何让专业人员进行指导才是当今企业面临的最大问题。”

 

责任编辑:赵宁宁 来源: 今日头条
相关推荐

2020-12-31 06:55:37

机器人自然语言人工智能

2017-04-27 13:42:56

机智云智能家居机器

2024-08-22 12:31:05

2022-06-21 08:50:13

开源MegPeak处理器

2017-03-17 08:30:08

机器学习深度学习人工智能

2021-08-11 08:29:25

UbuntuLTS发布模式

2016-03-17 17:35:20

浪潮

2017-12-19 10:41:29

人工智能UCloudARKie

2022-05-19 09:53:05

机器学习人工智能算法

2013-07-18 14:18:19

机器智商

2019-08-27 17:11:21

2022-07-26 14:38:08

JavaScriptWeb安全自动化

2013-04-07 11:25:13

智能云智能手机

2021-05-19 14:55:29

谷歌Google Maps地图

2018-08-10 17:41:44

顺网科技

2018-08-21 05:12:10

2017-02-17 07:46:29

2024-01-02 07:34:38

CentOSLinuxRedhat

2023-10-19 15:25:40

2021-09-27 06:29:01

Redis淘汰机制
点赞
收藏

51CTO技术栈公众号