深度学习在自然语言处理方面取得了惊人的进步。利用Explosion、Huggingface和JohnSnowLabs的最新创新。
自然语言处理(NLP)一直是计算机科学家的一个长期梦想,其历史可以追溯到ELIZA时代,甚至可以追溯到计算本身的基本基础(图灵测试,有人吗?)。NLP在过去几年经历了一场戏剧性的革命,过去的统计方法让位于基于深度学习或神经网络的方法。
将深度学习应用于NLP已经产生了大量的、复杂的、通用的语言模型,比如GPT-3,能够生成与人类写作真正无法区分的文本。例如,GPT-3解锁了微软新的“无代码”PowerApps平台中的功能,您可以在其中输入查询的自然语言描述,后端将生成代码(PowerFx表达式基于Excel语法)。
NLP在整个企业中具有巨大的潜力,不仅仅是像谷歌或微软这样的巨头将产品带到桌面上。在本文中,我们将介绍三家不同的初创公司,它们的范围从提供AI驱动的解决方案到提供构建您自己的自定义NLP解决方案的构建块。
Explosion
大多数在NLP圈子工作的开发人员都接触过Python流行的NLP库spaCy,但很少有人听说过Explosion,这家由Matthew Hannibal和Ines Montani创立的公司开发了spaCy和商业注释工具Prodigy。
作为多年来首屈一指的NLP工具包之一,spaCy能够毫不费力地处理大量生产工作负载,这是其与其他同类库的显着特征之一。如果您有一段时间没有使用spaCy,您可能会惊讶地发现它跟上现代NLP技术的前沿,其管道基于预训练的Transformer模型(如BERT),能够集成自定义来自PyTorch或TensorFlow的模型,并支持50多种开箱即用的语言。
虽然spaCy是开源的,但Explosion还提供了一个付费产品Prodigy,它旨在成为数据科学家工具包中非常宝贵的一部分,能够对数据集进行富有表现力的、可编写脚本的注释,不仅与spaCy有紧密的交互循环,而且还具有全面的支持注释图像、音频和视频。Prodigy提供了用于构建用于分类、转录、边界框等的管道的方法。这些应该允许数据科学家在数据集的高效注释方面发挥更积极的作用,从而降低构建丰富输入数据和创建更好模型的成本。
Huggingface
从提供基于Transformer的NLP模型和Write With Transformer网站的PyTorch库的公司,到如今的Huggingface无所不能的NLP巨头,这是一段相当长的旅程。如今,Huggingface的Transformers库不仅是文本处理的事实上的标准,而且从找到新论文或技术到将其放入库之间的周转时间通常以天而不是周来衡量。
Huggingface模型动物园已经扩展到各种不同模型(包括领域、语言、大小等主题)的模型中心,包括一个托管推理API,该API拥有许多模型的加速实现,以及一个易于使用的API用于处理大量不同的数据集。你会发现Huggingface被数千家公司使用,从Grammarly之类的应用程序到微软、谷歌和Facebook的研究用途。最重要的是,Huggingface为机器学习生态系统贡献了其他较小的库,例如最近的Accelerate库,它消除了在一组分布式机器上训练大型模型的大部分麻烦。
Huggingface也没有放慢脚步。最近几个月,我们已经看到音频和图像模型被添加到平台中,随着Transformer架构继续在深度学习领域占据一席之地,征服所有道路,Huggingface很可能会站在最前沿。
JohnSnowLabs
JohnSnowLabs是SparkNLP的管理者,SparkNLP是一个开源NLP框架,它运行在ApacheSpark之上也许并不奇怪。在企业中非常受欢迎,您会发现它为公司中的各种NLP管道提供支持,用于命名实体识别(NER)、信息检索、分类和情感分析等应用程序。与spaCy一样,它已经演变为适应NLP中的新范式,标准配备了大量深度学习模型(超过700个!)和400多个用于各种不同应用程序的管道。它还利用ApacheSpark的可扩展性,比许多竞争对手更容易进行分布式部署。
有趣的一件事是,JohnSnowLabs在SparkNLP的基础上构建了三种付费产品,其中两种主要针对医疗保健行业,另一种也主要针对该领域,但可以用于其他领域。他们提供HealthcareAI,一个运行在Kubernetes之上的托管平台,用于医疗保健分析和研究,以及一组用于SparkNLP的附加包,允许使用诸如临床实体识别和链接、提取医学概念和去识别文本等方法.
另一个付费产品是SparkOCR,它声称是同类中最好的OCR解决方案。它以DICOM格式和PDF捕获区域和输出的能力对医疗保健领域略有偏见,但具有一套更通用的图像处理、去噪、去歪斜管道,当然可以与SparkNLP集成以轻松生成可扩展的管道,可以从任何给定的输入图像中进行端到端的NER提取。
SparkNLP中有很多嵌入的知识,在医疗保健领域,JohnSnowLabs似乎比其他大型NLP库提供商更具优势!
NLP的下一步是什么
未来几个月人们可能会在NLP领域看到什么?我想还有更多相同的地方,但更大;万亿参数模型现在在谷歌、微软和Facebook等公司变得越来越重要。虽然GPT-3目前被锁定在OpenAI的API后面,但预计GPT-NeoX的开源“再创造”将在今年某个时候发布1750亿参数模型,将GPT-3生成能力的力量带到漂亮的这个星球上的任何人。
最后,我们可以期待研究人员在规模的另一端继续努力,试图让这些架构在更小的设备和更长的文档上运行得更快、更高效。而且您可以放心,所有这些研究的结果也将出现在Explosion、Huggingface和JohnSnowLabs的产品中。