Casetext如何使用人工智能为法律行业赋能

人工智能
Casetext 目前在我们业务的许多领域都采用了人工智能技术,我们将继续部署研究实验室的最新进展。在Casetext,我们在系统设计方面的指导原则是让人类和机器分别完成最适合的任务。

人类和人工智能——发挥各自的优势

Casetext 目前在我们业务的许多领域都采用了人工智能技术,我们将继续部署研究实验室的最新进展。在Casetext,我们在系统设计方面的指导原则是让人类和机器分别完成最适合的任务。通过在实践中应用这一原则,我们的后端数据管道将人工智能驱动的过滤与人工专家审查相结合,我们的前端面向用户的服务,如 CARA AI,会显示最相关的信息,然后我们的用户可以消化这些信息并用于制定论点。

CARA AI 是我们面向用户的旗舰 AI 产品。关于其内部工作原理的讨论值得单独讨论,但我们 Casetext 也在将 AI 整合到我们运营的更多领域,我们将讨论我们在过去一年中使用 AI 的一些新领域。

类似问题

对于我们的类似问题功能,我们使用一种技术将一段法律文本转换为高维向量——代表该段落的数字列表,可以将其视为坐标系内具有一定长度和方向的直线。在二维中,向量如下所示:

我们用来表示一段文本的向量的维数比二维多得多,但是,在这个高维空间中,我们用于操作二维向量的某些数学技术仍然成立。通过这些技术,相似的通道得到相似的向量表示,导致两个相似通道的向量之间的角度很小,而两个非常不同的通道向量之间的角度很大。对于给定的文本段落,将其称为段落 A,我们的系统从整个法律中返回其他段落,其向量与段落 A 的向量的角度最小。

引用者

Citator 是 Casetext 对不再是良法的案件发出危险信号的系统。Casetext 可以以比我们的竞争对手低得多的价格提供准确的引用者,因为我们使用 AI 来过滤掉我们的律师审稿人不需要阅读的新案件部分。在上诉法院或更高级别出现的每一个新案件都可能推翻先前的案件。我们不是让律师阅读每个案件的全部内容,而是让我们的人工智能阅读每个案件的全部内容,然后只将案件中有机会推翻另一个案件的部分传递给我们的律师。我们撒下了一张非常宽广的网,并向我们的审稿人展示我们的人工智能模型认为哪怕是很小的机会包含压倒性语言的任何段落。这意味着我们扫过许多没有推翻的段落,这样我们就可以抓住所有推翻另一个案例的段落。

我们的律师会审查模型选择的每个段落,确定它是否确实推翻了另一个案件,然后记录哪个案件被推翻了。这种人工智能驱动的方法不仅节省了大量人力,而且还提高了准确性。必须阅读整个案例以寻找压倒性语言的人工审稿人往往会掩盖或遗漏关键信息。然而,我们的人工智能算法永远不会感到疲倦或无聊,它们会阅读每一段文本。我们已经看到过这样的例子,我们发现了竞争对手遗漏的推翻案例,例如,推翻性的语言被埋藏在脚注中,而他们的人工审稿人必须跳过。

我们的人工智能在数千个推翻案件的例子中进行了训练,在这些例子中,我们的律师手工突出显示了案件中代表推翻裁决的特定语言。使用这个数据集,我们训练了一个人工智能模型来区分推翻段落和非推翻段落。我们让人类审查模型告诉我们的任何段落,哪怕只有一点点机会包含压倒性的语言。随着我们逐渐训练出更准确的模型,我们已经能够在不牺牲引用者的全面性的情况下逐步减少审稿人需要阅读的段落数量。

这些是我们在过去一年中添加的人工智能应用。在下一节中,我将介绍最新的人工智能研究的状况,以及未来一年的机会。

人工智能驱动的法律信息学的现状

对于人工智能在法律行业来说,我们正处于一个非常激动人心的时刻。直到最近,人工智能在自然语言处理(NLP)方面的进步远远落后于计算机视觉方面的进步。

计算机视觉从2012年左右开始爆炸式增长的一个主要原因是,计算机视觉最有效的算法类型,即深度卷积神经网络,适合迁移学习。迁移学习是一种技术,在这种技术中,首先对 AI 模型进行预训练,以在大型数据集上针对特定任务进行预训练,然后在小型数据集上针对不同任务进行微调。

神经网络对数据的需求量很大——当您向它们提供更多训练数据时,其他类型模型的性能会趋于平稳,即使有大量训练数据,足够大小的神经网络也会继续改进。然而,训练数据通常需要人工标记——例如,如果你想训练一个 AI 模型来识别图像中的对象,你需要让人类查看每个图像,并用它所包含的对象的名称标记每个图像。人工贴标既昂贵又耗时。因此,在大多数业务情况下,可用的手动标记数据点相对较少。如果神经网络必须在每个任务的小型数据集上从头开始训练,那么它们就不会像现在这样有用。然而,事实证明,神经网络在一项计算机视觉任务上所做的大部分学习也对其他视觉任务有用。

卷积神经网络可以理解为逐渐变得更加复杂的模式识别器,它们相互堆叠。以下是计算机视觉神经网络中渐进层识别的模式类型的可视化。该模型是在包含超过 100 万张带有标签的图像的公共数据集上训练的。如您所见,第一层图案是简单的线条和渐变。下一层是由前一层的线条和渐变组合而成的纹理和基本形状,第三层是由第二层的简单形状组合而成的更复杂的形状。

许多形状和纹理,当然还有线条和渐变,几乎在任何视觉识别任务中都很有用。因此,一旦在大型数据集上训练到能够识别这些类型的模式,计算机视觉模型的下层就可以重新用于许多不同的视觉任务。使用这种被称为迁移学习的技术,拥有少于 100 万张标记图像的人能够在自己的计算机视觉任务中获得出色的结果。

直到最近,迁移学习在自然语言处理中还不如在计算机视觉中有效。由于大多数与法律相关的人工智能任务都涉及自然语言处理,这一直是人工智能在法律中的应用的一个限制。

通过对预先训练的词向量(在大型文本语料库上训练的单词的表示)进行迁移学习,取得了一些收益。词向量于 2003 年首次提出,并于 2013 年通过一种称为 word2vec 的重要技术进行了改进。Word2vec 看起来相当令人印象深刻——例如,从“国王”的向量中减去“男人”的向量,然后加上“女人”的向量,得到一个非常接近“女王”向量的向量。这些结果表明,词向量技术正在捕捉单词中的许多含义。

词向量推动了该领域的发展,但未能实现计算机视觉中迁移学习所看到的那种结果。用预先训练的词向量替换单词仅代表神经网络第一层的迁移学习。第一层之外的所有层仍然必须从头开始训练,这限制了NLP中迁移学习的能力。

这一切都在 2018 年发生了变化,引入了可用于多层迁移学习的自然语言处理 AI 模型架构。基于过去几年的进步,许多组件进入了这些模型架构。

2017 年,谷歌的一个研究小组发表了一篇题为《注意力就是你所需要的一切》的论文,该论文阐述了神经转换器的架构——一种有效的方法,在决定输出序列的每个部分时,通过“注意”输入序列的关键部分来获取输入序列并输出不同的文本序列。这种类型的架构最初被证明在机器翻译中非常有用,但很快扩展到其他领域,因为它是迄今为止已知的创建整个句子长度文本序列的矢量化表示的最佳方式(而不仅仅是单词,就像单词嵌入一样)。

2018年初,艾伦研究所(Allen Institute)和华盛顿大学(University of Washington)的一个研究小组推出了ELMo,这是一种用于创建多层上下文相关词嵌入的技术。ELMo通过两种方式改进了预先存在的单词嵌入技术:1.它根据单词的上下文为每个单词的序列创建嵌入,而不是为每个单词创建一组嵌入,而不管上下文如何。这使得“Will went to the store”中“Will”的嵌入与“Will you go to the concert?”中“Will”的嵌入不同。2. ELMo 单词嵌入是从经过训练的模型的许多层创建的,这些模型可以预测给定文本序列的下一个单词,而不仅仅是从第一层创建,从而实现单词的更稳健的表示。

同样在 2018 年初,Jeremy Howard 和 Sebastian Ruder 推出了 ULMFiT,它引入了在 NLP 的整个模型上使用迁移学习的想法。这涉及在不需要人工标记的任务上预训练整个模型(在本例中,预测单词序列中的下一个单词),然后在目标任务上微调模型。

在2018年末,所有这些想法与一些新想法一起被组合成由领先的NLP小组创建的各种模型类型。谷歌在 2018 年底发布了 BERT,OpenAI 在 2019 年初发布了 GPT-2。两者都利用转换器、上下文深度词嵌入和对任务进行预训练,而无需人工标记,然后对特定任务进行微调。两者都取得了令人印象深刻的成果,在广泛的 NLP 基准测试中取得了新的记录。

谷歌通过使用这两个任务,而不是预测序列中下一个单词的常规任务,在没有人工标记的情况下对预训练进行了新的改变:

1. 在一个删除了两个单词的句子中,BERT 被训练来预测这两个单词是什么。

2. 给定两个句子,BERT 被训练以确定这些句子中的一个句子是否在一段文本中紧随其后,或者它们是否只是两个不相关的句子。

在 Casetext,我们使用了类似于 BERT 和 GPT-2 的技术来大幅改进我们的引用者过滤算法。结合这些新技术,我们可以将律师审稿人需要阅读的段落百分比从所有新案件中的 10% 减少到仅 3%。我们的竞争对手有律师阅读 100% 的案件。生产我们的 citator 所需的工时大幅减少,使我们能够以比竞争对手低得多的价格提供 citator,而不会牺牲准确性。

责任编辑:华轩 来源: AI技术和商业思维
相关推荐

2019-02-19 10:32:53

人工智能智慧警务大数据

2021-10-28 11:00:00

人工智能AI汽车行业

2023-09-11 14:23:22

2023-09-11 14:02:43

2023-05-18 15:39:11

人工智能ChatGPT

2021-09-06 10:29:08

保险行业人工智能AI

2021-06-24 13:20:29

人工智能AI

2022-08-30 12:58:49

元宇宙

2020-03-25 09:53:33

人工智能AI技术

2021-01-08 11:00:19

人工智能AI机器学习

2018-04-24 10:10:38

医疗

2022-06-20 11:05:58

通用人工智能机器人

2019-03-06 10:42:07

人工智能AI实体经济

2023-05-10 16:01:53

物联网人工智能

2023-04-07 16:13:33

边缘物联网人工智能

2018-07-02 10:48:20

2019-05-10 10:21:34

人工智能视频行业计算机视觉

2023-05-23 10:06:30

人工智能工具代码

2018-08-13 20:40:02

AI金融企业风险

2020-02-17 07:00:20

人工智能AI经济
点赞
收藏

51CTO技术栈公众号