6大人工智能应用关键技术，终于有人讲明白了-人工智能的关键技术

01 机器人流程自动化（Robotic Process Automation，RPA）
RPA（Robotic Process Automation，机器人流程自动化）的定义：通过特定的、可模拟人类在计算机界面上进行操作的技术，按规则自动执行相应的流程任务，代替或辅助人类完成相关的计算机操作。

与大家通常所认为的具备机械实体的“机器人”不同，RPA本质上是一种能按特定指令完成工作的软件，这种软件安装在个人计算机或大型服务器上，通过模拟键盘、鼠标等人工操作来实现办公操作的自动化。

▲图1-1 RPA是未来办公创新和发展的趋势

RPA也被形象地称为数字化劳动力（Digital Labor），是因为其综合运用了大数据、人工智能、云计算等技术，通过操纵用户图形界面（GUI）中的元素，模拟并增强人与计算机的交互过程，从而能够辅助执行以往只有人类才能完成的工作，或者作为人类高强度工作的劳动力补充。

自2015年以来，人工智能技术和RPA在同一时间大幅度发展和进步，恰好相辅相成，汇合在了一起。自然而然地，RPA和AI两者的结合运用，带来了一股非常独特的智能化应用的发展潮流，我们称之为智能RPA技术，或者IPA技术（Intelligent Processing Automation），即智能流程自动化技术（如图1-2所示）。

[[358090]]

▲图1-2 智能RPA的构成：RPA+AI=IPA

换句话说就是，RPA是基础，需要与其他技术手段整合在一起，方能实现IPA及其优势。

商业社会对流程自动化的功能的期望将与日俱增，将机器学习等AI技术运用到RPA中，将人工智能功能集成到产品套件中，以提供更多类型的自动化功能，已经成为未来RPA发展的主流趋势。

02 光学字符识别（Optical Character Recognition，OCR）
OCR技术是指利用电子设备（例如扫描仪或数码相机）将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。通俗地说就是，对文本资料进行扫描，然后对图像文件进行分析处理，以获取文字及版面信息的技术。

OCR技术一般可分为如图3-1所示的5个阶段。

▲图3-1 OCR技术的5个阶段

下面具体说明OCR的识别流程。

1. 图像处理

针对图像的成像问题进行修正。常见的图像预处理过程包括：几何变换（透视、扭曲、旋转等）、畸变校正、去除模糊、图像增强和光线校正、二值化处理等。

2. 文字检测

检测文本所在位置、范围及其布局，通常还包括版面分析和文字行检测等。文字检测解决的主要问题是哪里有文字，文字的范围有多大。

文字检测采用的处理算法一般包括：Faster-RCNN、Mask-RCNN、FPN、PANet、Unet、IoUNet、YOLO、SSD。

3. 文字识别

在文本检测的基础上，对文本内容进行识别，将图像中的文本信息转化为计算机可识别和处理的文本信息。文字识别主要解决的问题是每个文字是什么。

文字识别常采用的处理算法包括：CRNN、Attention OCR、RNNLM、BERT。

4. 文本抽取

从文字识别结果中抽取出需要的字段或要素。

文本抽取常采用的处理算法包括：CRF、HMM、HAN、DPCNN、BiLSTM+CRF、BERT+CRF、Regex。

5. 输出

输出最终的文字识别结果或者文本抽取结果。

[[358092]]

03 机器学习/大数据分析
机器学习/大数据分析是一种用于设计复杂模型和算法并以此实现预测功能的方法，即计算机有能力去学习，而不是依靠预先编写的代码。它能够基于对现有结构化数据的观察，自行识别结构化数据中的模型，并以此来输出对未来结果的预测。

机器学习是一种通过“监督”和“无监督”学习来识别结构化数据中的模式（例如日常性能数据）的算法。监督算法是指在根据自己的输入做出预测之前，会从输入和输出的结构化数据集来进行学习。无监督算法是指观察结构化数据，并对已识别的模式提供相关见解。

机器学习和高级分析可能会改变保险公司的游戏规则，例如，在提高合规性、降低成本结构，以及从新的见解中获得竞争优势。高级分析已经在领先的人力资源部门中得到了广泛应用，主要用于确定和评估领导者和管理者的核心品质，以便更好地预测行为、规划职业发展道路和下一任领导岗位归属。

[[358093]]

04 自然语言生成（Natural Language Generation，NLG）
计算机具有与人一样的表达能力和写作能力，它遵循某种规则，将从数据中观察到的信息转换成高质量的自然语言文本。例如，自动识别会议邮件中的主题、数字地名、人名地址并生成行程表备忘录，或者识别出合同条款的关键内容并将摘要的重点生成列表。

关于自然语言生成及自然语言处理的详细介绍，请阅读《详解自然语言处理（NLP）5大语义分析技术及14类应用（建议收藏）》

05 智能工作流（Smart Workflow）
智能工作流是一种用于流程管理的软件工具，其中集成了由人和机器共同执行的工作，允许用户实时启动和跟踪端到端流程的状态，以便于管理不同组之间的切换，包括机器人与人类用户之间的切换，同时还能提供瓶颈阶段的统计数据。

随着社会和科技的不断进步，各个领域都开始逐步朝着自动化、智能化的方向快速发展。工作流相关技术的研究也越来越受重视，并广泛地应用于制造业、软件开发、银行金融、生物医学等不同领域。

工作流不但能够自动化地处理相关的活动和任务，减少人机交互处理过程中带来的潜在错误，而且能够精确化每一个处理步骤，最大化地提高生成效率，并且将工作流应用到动态、可变且灵活的应用场景当中。

近年来，在大数据、人工智能的背景下，工作流中的业务流程日趋复杂，所面临的环境和数据也日趋复杂，由需求分析引起的业务过程重新建模或由维护升级引起的过程模式变更和改进也变得越来越频繁。

在这种动态多变的复杂环境下，如何快速识别出任务，然后快速高效并有针对性地处理工作流问题，已成为目前工作流任务研究的关键问题。

RPA软件机器人在工作过程中，也会遇到很多类似的情况。工作流的复杂多变，会导致RPA作业流程的复杂多变，使其无法做到自适应，这将会大大影响RPA软件机器人的作业效率。

因此，需要通过智能工作流的技术，实现动态地调整RPA里的任务设定，以及RPA业务流程的自动变更和自动升级，在智能工作流的指导下实现自适应作业模式。

实现智能工作流的方法有很多，比如，美国J.H.Holland教授提出的基于遗传算法的工作流调度，Pandey S等提出的基于粒子群优化算法的启发式算法（PSO）可用于不同资源的智能调度。除此之外，还有很多基于自然界和仿生学的智能算法，比如，混合蛙跳算法、布谷鸟搜索算法、蝙蝠算法、人工蜂群算法等。

目前比较常见的方法是实现一种基于智能规划的工作流处理模式，该模式不再是单纯地将不同的活动当作对彼此没有影响的单独事件，而是有针对性地考虑多个事件的共同影响。

该模式充分考虑了工作流和智能规划之间的相似之处，通过智能规划推导出不同工作流任务之间的内在逻辑关系，并从其他的渠道和外部信息中充分挖掘潜在的关系。

逐步改进传统工作流中的问题，使用全新的智能规划的手段，从表面动作中挖掘出潜在的信息，过滤噪声数据，进而实现流程的自动修正，最后，通过前面得出的结论，有针对性地修改之前的RPA作业流程，实现自适应性的作业模式和作业过程。

[[358094]]

06 认知智能体（Cognitive Agent）
认知智能体是一种结合了机器学习和自然语言生成的技术，并在此基础上加入情感检测功能以做出判断和分析，使其能够执行任务，交流沟通，从数据集中学习，甚至根据情感检测结果作出决策。换句话说，机器会像人一样产生“情感共鸣、精神共振”，真正成为一个完全虚拟的劳动力（或者智能体）。

在客服领域，英国某汽车保险公司通过使用认知智能体技术，将客户转化率提高了22%，验证错误率降低了40%，整体投资回报率达到了330%。

当然，德勤、安永等咨询公司也坦然表示，就现阶段许多企业的流程管理与系统的基础能力来看，仍存在着大量的基础建设工作有待开展。而打造智能流程自动化所需的部分核心技术（例如认知智能体等）也还停留在雏形阶段。

智能包含三个方面，分别是计算智能、感知智能和认知智能。

在计算智能方面，计算机的速度早已远远超过人工的效率。

在感知智能方面，随着OCR、NLP等技术的发展，目前也已经能够实现很多的效果。

但是在认知智能方面，即使在某些特定领域，自然语言的处理也已经可以得到比人工更好的成绩，但是在某些领域，特别是知识理解、知识推理、知识判断等方面，还有很多需要逐步积累、逐步完善的地方。

按照机器能否产生自我认知和机器人的适用范围，人工智能分为弱人工智能和强人工智能，其中弱人工智能里的机器没有自我意识，不具备真正的推理和独立解决问题的能力，通常只适用于解决特定条件下的某种问题。当前人工智能的研究主要在弱人工智能领域。

而在强人工智能方面，机器具有一定的自我意识，能够通过学习拓展功能。对于当前不具备的功能或者当前不了解的知识，能通过自行学习获得。

当前条件下，全面的强人工智能还面临技术能力、社会伦理等多方面的挑战，但是在某些领域的特定场景下，具备认知智能能力和学习能力的人工智能软件，不仅能够优化作业流程、快速响应、覆盖更多不同的情况，同时还能够最大限度地避免技术风险和应用风险，是一个非常有价值的研究方向。

[[358095]]

认知智能有很多种定义，其中，复旦大学肖仰华教授曾经提到过，所谓让机器具备认知智能是指让机器能够像人一样思考，而这种思考能力具体体现在如下几个方面。

第一，机器具备能够理解数据、理解语言进而理解现实世界的能力。

第二，机器具备能够解释数据、解释过程进而解释现象的能力。

第三，机器具备推理、规划等一系列人类所独有的认知能力，也就是说认知智能需要解决推理、规划、联想、创作等一系列复杂任务。

智能体是指驻留在某一环境下，能够持续自主地发挥作用，具备驻留性、反应性、社会性、主动性特征的计算实体。根据著名人工智能学者，美国斯坦福大学Hayes-Roth教授的理论“智能体能够持续执行三项功能：感知环境中的动态条件、执行动作影响环境、进行推理以解释感知信息、求解问题和决定动作”。

从前面的定义我们可以看出，认知智能体能够感知到环境中的动态条件，然后根据这些条件执行相应的动作来影响现有的环境，同时其还能够用推理来解释感知信息，求解相关问题，决定后续动作。

将认知智能体与RPA相结合，我们能够得到一个具备认知智能的机器人，它可以根据所涉及的应用系统和其他环境的变化动态感知下一步需要做的事情，同时执行相应的动作来影响对应的环境信息，实现智能录入、智能监控、智能文档处理和辅助判定。

与此同时，认知智能体通过RPA技术在处理业务的同时，还能够学习到相关的经验和知识，逐步掌握识别重点的能力。

认知智能体的研究包含了多种不同的方法，近年来，随着分布式人工智能、信息科学和网络科学的不断发展，面向动态环境下的分布式协同决策已经成为认知智能体的一个重要的研究方式。这种方式在以多无人机系统、多机器人系统为代表的典型无中心式多智能体系统中得到了广泛的应用。

与此同时，受限于自身设计，智能体对所在环境和系统常呈现出信息的部分可观测特征，而有限的智能体之间的交互和外部的约束也使得获得全局信息需要付出极高的代价。

同时，无中心式的多智能体系统在应用中呈现出了与社会网络相类似的自组结构和相应的复杂网络特征，即网络中单个智能体通常仅能连接/交互所在局部网络中的小部分智能体，传统的集中式协同模型则不再适用。

此外，类似于社会网络中人与人之间的有限信息交换便可大大提升个体的决策效率，同样的方法能否应用到相应的研究当中，也处于不断的尝试过程中。