2022年11月推出的ChatGPT是自然语言处理(NLP)的一个分水岭,因为它展示了转换器(Transformer)架构在理解和生成文本数据方面的惊人有效性,也被称为人工智能的ChatGPT时刻。现在,随着预训练大型视觉模型(LVM)的兴起,我们在计算机视觉领域看到了类似的情况。但是,这些模型何时才能将视觉数据广泛应用呢?
自2010年左右以来,计算机视觉领域的最先进技术是卷积神经网络(CNN),这是一种模仿生物大脑中神经元相互作用的深度学习架构。CNN框架,如ResNet,为图像识别和分类等计算机视觉任务提供了动力,并在工业中得到了一些应用。
在过去十年左右的时间里,另一类模型,即扩散模型(Diffusion models),在计算机视觉界获得了广泛的关注。扩散模型是一种生成神经网络,它使用扩散过程来模拟数据的分布,然后可以用类似的方式生成数据。流行的扩散模型包括Stable diffusion,这是一种基于互联网上23亿张英文字幕图像预训练的开放式图像生成模型,能够基于文本输入生成图像。
重点来了
2017年发生了一次重大的架构转变,当时谷歌在其论文《注意力就是你所需要的一切》中首次提出了转换器架构。转换器架构基于一种根本不同的方法。它省去了卷积和递归CNN,以及递归神经网络中的RNN(主要用于NLP),完全依赖于一种称为注意力机制的东西,即序列中每个组件的相对重要性是相对于序列中的其他组件计算的。
这种方法在NLP用例中被证明是有用的,谷歌研究人员首次应用了这种方法,并直接导致了大型语言模型(LLM)的创建,如OpenAI的生成预训练转换器(GPT),它点燃了生成式人工智能领域。但事实证明,转换器架构的核心元素——注意力机制——并不局限于NLP。正如单词可以被编码为标记并通过注意力机制测量相对重要性一样,图像中的像素也可以被编码成标记并计算其相对值。
2019年,当研究人员首次提出将转换器架构用于计算机视觉任务时,开始对转换器进行计算机视觉的功能修补。从那时起,计算机视觉研究人员一直在改进LVM领域。谷歌本身已经开源了视觉转换器模型ViT,而Meta则有DINOv2。OpenAI也开发了基于转换器的LVM,如CLIP,并在其GPT-4v中包含了图像生成功能。谷歌大脑联合创始人吴恩达创立的LandingAI也将LVM用于工业用例。多个提供商提供了可以处理文本和图像输入并生成文本和视觉输出的多模式模型。
与其他计算机视觉模型(包括扩散模型和传统的卷积神经网络)相比,基于转换器的LVM既有优点也有缺点。不利的一面是,LVM比CNN需要更多数据。如果你没有大量的图像可供训练(LandingAI建议至少有100000张未标记的图像),那么它可能不适合你。
另一方面,注意力机制使LVM比CNN具有根本优势:它们从一开始就具有全局背景,从而提高了准确率。LVM“慢慢地将整个模糊图像聚焦”,而不是像CNN那样试图从单个像素开始并缩小图像。
简而言之,预训练的LVM的可用性可以提供非常好的开箱即用性能,无需手动训练,对计算机视觉的能量可能与预训练的LLM对NLP工作负载的能量一样大。
尖端LVM崛起
LVM兴起让Srinivas Kuppa这样的人感到兴奋,他是SymphonyAI的首席战略和产品官,SymphonyAI是一家长期为各种行业提供人工智能解决方案的公司。
根据Kuppa的说法,由于LVM的出现,我们正处于计算机视觉市场发生重大变化的风口浪尖。Kuppa说:“我们开始看到,大型视觉模型(LVM)真的以大型语言模型(LLM)的方式出现了。”
他说,LVM的一大优势是它们已经(大部分)经过培训,消除了客户从头开始进行模型训练的需要。
Kuppa称:“这些大型视觉模型的美妙之处在于,它们在更大程度上经过了预训练。”“一般来说,人工智能(当然还有视觉模型)面临的最大挑战是,一旦你接触到客户,你就必须从客户那里获得大量数据来训练模型。”
SymphonyAI在制造、安全和零售环境中的客户互动中使用了各种LVM,其中大多数是开源的,可以在Huggingface上找到。它使用Mistral的120亿参数模型Pixel,以及开源多模态模型LLaVA。
虽然预训练的LVM在各种用例中都能很好地开箱即用,但SymphonyAI通常会使用自己的专有图像数据对模型进行微调,从而提高客户特定用例的性能。
Kuppa说:“我们采用这种基础模型,在将其交给客户之前对其进行进一步的微调。”。“因此,一旦我们优化了该版本,当它提供给我们的客户时,效果会好很多倍。它缩短了客户的价值实现时间,(这样他们就不必)在开始使用之前处理自己的图像、给它们贴标签和担心它们。”
例如,SymphonyAI在离散制造领域的长期服务记录使其能够获得许多常见设备(如锅炉)的图像。该公司能够使用这些图像对LVM进行微调。然后,该模型作为其Iris产品的一部分进行部署,以识别设备何时损坏或何时未完成维护。
Kuppa在谈到SymphonyAI时说:“我们是由50年或60年前的大量收购拼凑而成的。”SymphonyAI于2017年正式成立,得到了印度裔美国商人罗梅什·瓦德瓦尼10亿美元的投资。“因此,随着时间的推移,我们以正确的方式积累了大量数据。自生成式人工智能爆炸以来,我们所做的就是查看我们拥有的数据类型,然后尽可能匿名化数据,然后以此为基础训练这个模型。”
LVM继续发展
SymphonyAI为世界上最大的食品制造商之一开发了LVM。他说,该公司还与分销商和零售商合作,实施LVM,使自动驾驶汽车能够进入仓库,并优化货架上的产品摆放。
Kuppa说:“我希望大型视觉模型能够开始引起人们的关注,并看到加速增长。”“我在Huggingface上看到了足够多的模型。我看到了一些开源的模型,我们可以利用它们。但我认为有机会大幅增加(使用)。”
LVM的限制因素之一(除了需要针对特定用例对其进行微调外)是硬件要求。LVM有数十亿个参数,而像ResNet这样的CNN通常只有数百万个参数。这给运行LVM进行推理所需的本地硬件带来了压力。
对于实时决策,LVM将需要大量的处理资源。在许多情况下,它需要连接到云端。Kuppa说,包括FPGA在内的不同处理器类型的可用性可能会有所帮助,但这仍然是当前的需求。
虽然目前LVM的使用并不多,但它的足迹正在增长。在过去两年中,试点和概念验证(POC)的数量大幅增长,机会很大。由于预先训练的模型,实现价值的时间缩短了,所以他们可以更快地开始看到它的价值及其结果,而无需预先投入太多资金。但这是否会转化为更大规模的企业级采用,仍需要时间去观察。”