阿里妹导读:批改作文、同声翻译、制作海报……人工智能技术已经越来越多地运用在我们的日常生活中。而在法务领域,除了国外 LawGeex 在多个法务领域的应用外,目前在国内暂无成熟运作产品。
最近,阿里巴巴信息平台企业数据智能部的工程师们,悄悄解锁了这项成就。下面我们一起来看看。
AI 与法务,会擦出怎样的火花?
日前在阿里巴巴内部,进行了这样一场特殊的“比赛”。600 份在线协议,8 位专业律师用了一周时间完成审核,而人工智能仅用时 1 秒,并且在这 600 份协议中,标记出的问题准确率达到 100%。
这是阿里巴巴信息平台企业数据智能部的工程师们,自主研发的智能合同诊断系统,用 AI 代替法务进行互联网在线协议的审核工作。究竟 AI 在法务领域如何运用?背后有哪些技术原理?以下是我们给出的解决方案。
背景
互联网背景下的消费者权益保护成为大众关注的新焦点。这其中就包括了客户服务协议、用户隐私协议等消费者与运营商签署的互联网在线协议问题。阿里巴巴因为业务线众多,对于此类协议的审查与更新工作更是一项庞大工程。
目前人工审核一份在线协议的平均时长在 30 分钟左右,并且由于文字量大、规则多,人工检查不可能 100% 覆盖,人工审核标准不够统一。有没有可能让 AI 来代替法务进行审核工作?在这样的背景下,智能合同诊断系统上线了。
这套智能合同诊断系统主要做两件事,一是判断出不该出现的内容(如:违反法律法规的违禁词、侵犯消费者权限的条款、模糊表述等);二是判断哪些是原本应该出现的内容,并给出修改建议或推荐用词。
智能合同诊断系统检查出风险点,并给出推荐表述
看似简单,但实际在系统学习过程中却困难重重:
1、法律语言表达和自然语言的差异性
目前普遍在做的 NLP 应用,大部分是基于自然语言进行处理。例如社交网络语言,更加接近人们对话的用语表达。而法律用语和自然语言用语之间存在较大差异,法律语言通常有其特定领域的表达规范和逻辑,和我们通常的自然语言表述有较大差异。这就导致了现有的研究成果无法直接应用于法务领域,需要做特定领域的迁移。
2、技术和业务场景的鸿沟
如果不具备法务法律领域相关知识基础,有好的 NLP 技术也不一定能在法务领域落地。能够将法务领域需求抽象并和技术相结合,具有很大挑战,需要跨领域人才和多领域人才密切配合。
3、标注数据的稀缺性
在法务领域,数据十分稀缺,而且往往涉及到敏感信息和商业机密,导致了数据无法共享。有些场景仅有少量标注数据。
4、较高的准确性要求
法务领域对算法指标要求较高,特别有些场景对算法的召回率有严格要求,因为一旦漏掉关键信息有可能造成较大的法律风险;此外,法务很多场景对算法可解释性要求较高,因此算法不但要知其然还要知其所以然。
解决方案
在搭建系统时,***步就是针对法务领域建立行业词库和知识图谱。
只有首先教会系统理解法律术语,而不是自然语言,接下来才能更好训练系统去理解法律概念。基于阿里巴巴大量的在线协议、合同、诉讼等各种法律文书,采用大规模无监督的短语挖掘方法 Phrase Mining[1,2] 能自动从文书中提取出行业关联度较强的短语,例如:“包括但不限于”、“授权委托书”、“过失侵权行为”等;
同时,法务专家会根据特定业务场景梳理出业务规则,比如在在线协议领域,就标注出一份禁止用语清单,以及出现相关禁用语的对应推荐词可供机器学习。比如:“一经公告、立即生效”的推荐表述为“公告之后的 7 日后生效”等。针对大量这些法务规则输入,从技术角度解析为知识图谱上的点,变为计算机可以处理的格式。
词的向量表示
基于大规模训练的通用词向量几乎对所有 NLP 任务都有显著帮助。而针对法务领域而言,由于有其特定的领域特性,我们在通用的词向量基础上,加入了大量法务领域文书的语料,使得学习到的词向量在法务领域表现更为突出。
普通的词向量模型大多采用 Word2Vec 或者 GloVe 训练得到,最近的一项研究[3]发现基于 context 的词向量 ELMo 能够进一步提升帮助多个 NLP 任务。
基于 context 的词向量本质是语言模型的词向量,词向量不仅仅是词本身的函数,也同时是句子里面其他词以及序列位置的函数。在法务领域中我们也尝试了 ELMo 语言模型得到词向量,提升了模型性能。
冷启动和快速样本标注
标注数据一直是机器学习问题最重要的要素之一,只有拥有了大量标注数据才能训练得到比较好的模型。然而在法务领域,标注数据的获取是非常昂贵的,需要具备法律专业的人士进行标注。
为了取得效率和成本的权衡,我们首先基于专家输入的规则和知识图谱,构建了基于规则系统的自动标注服务,能够对存量数据进行自动打标。另一方面,可以替换关键词,自动生成标注数据。例如:“一经公告、立即生效”,可以将“立即”替换为“立刻”、“立马”、“即刻”等,通过这种方式可以生成大量的标注数据。
主动学习。规则毕竟是有限的,虽然可以解决一部分问题,但是无法解决模型的泛化能力,最终还是需要依赖一部分人工标注。为了减少人工标注成本,可以采用主动学习方法。每次仅需要人工标注最不确定的那些少量样本就可以很大程度提升模型的性能。
多模型组合
文本分类技术也经历了从传统基于规则、人工特征到目前基于深度学习的技术演变过程。目前比较流行的技术方案是基于 RNN 的序列模型、基于 CNN 的模型,以及在此基础上演化而来的各种变种,比如结合注意力(attention)机制,用预训练的词嵌入(Word Embedding)等方法。
在法务垂直领域中,我们利用 ELMo 构建了领域特性的词向量作为模型的输入,针对在线协议审查这一具体问题设计了一种结合 CNN 和 RNN 的深度神经网络:C-GRU 模型。不仅充分捕捉了核心词与周围词的关系,也解决了长句依赖问题。
深度学习模型虽然能较好解决违规表述的分类问题,但是由于模型对于用户而言是黑盒,可解释性差。在线协议智能审核不仅要找到违规的条款表述,还需要定位到具体哪些词语引起的,以及需要改成什么样的才是推荐的表述。
因此我们的最终方案采取深度学习模型负责高召回,将所有可能产生违规表述的条款检测出来。然后采用句法分析和规则方法对条款进行解析,定位到具体违规表述的位置和推荐表达。这种方案的优点是利用深度学习提高召回率,用规则进行精确定位。
目前在线协议 AI 诊断系统除了极大提升协议审核效率,实现秒级审核速度,平均准确率在 94% 以上,每年相当于节省 130 人日的工作量。
未来规划
近年来,以深度学习和自然语言处理为代表的人工智能技术取得巨大突破,也开始在法律智能领域崭露头角,受到学术界和产业界的广泛关注。智能合同诊断只是我们在智能法务领域的***步探索,除此之外,更多在合同、诉讼文书以及裁决文书上的工作正在进行中。
在技术上,我们进一步和阿里巴巴机器智能技术(MIT) 合作共建,加强在行业知识图谱构建、机器阅读理解以及信息抽取技术在法律领域应用的研究与探索。沉淀法律领域基础数据资源,构建领域特点的自然语言处理平台,共同服务于多样化的法律业务中。
除了自然语言处理技术之外,我们还会在音视频技术上加大投入,如图像识别,光学字符识别(OCR)、手写字符识别、ASR 等。用于处理不同类型的法律材料,解决自然语言处理上游多源信息输入问题。我们的最终目标是构建全链路全能力的法务 AI 能力。
相信法务 AI 能力的建设和完善能够服务于广大普通用户、律师、法院等法律行业从业者。