2022年深度学习的发展趋势与问题-深度学习发展趋势

我们将人工智能(AI)深度学习的又一年激动人心的发展抛在身后——这一年充满了显着的进步、争议，当然还有争议。在我们结束 2022 年并准备迎接 2023 年的到来之际，以下是今年深度学习领域最显着的总体趋势。

1. 规模仍然是一个重要因素

过去几年深度学习中一直保持不变的一个主题是创建更大的神经网络的驱动力。计算机资源的可用性使扩展神经网络以及专门的 AI 硬件、大型数据集以及变压器模型等规模友好架构的开发成为可能。

目前，公司正在通过将神经网络扩展到更大的规模来获得更好的结果。过去一年，DeepMind 发布了Gopher，一个 2800 亿参数的大型语言模型（LLM）；谷歌发布了拥有 5400 亿个参数的Pathways 语言模型 ( PaLM )和多达 1.2 万亿个参数的通用语言模型 ( GLaM )；微软和英伟达发布了Megatron-Turing NLG，一个 5300 亿参数的 LLM。

规模的有趣方面之一是涌现能力，其中较大的模型成功地完成了较小的模型不可能完成的任务。这种现象在 LLM 中特别有趣，随着规模的扩大，模型在更广泛的任务和基准测试中显示出有希望的结果。

然而，值得注意的是，即使在最大的模型中，深度学习的一些基本问题仍未解决（稍后会详细介绍）。

2. 无监督学习继续交付

许多成功的深度学习应用程序需要人类标记训练示例，也称为监督学习。但互联网上可用的大多数数据都没有带有监督学习所需的干净标签。数据注释既昂贵又缓慢，造成瓶颈。这就是为什么研究人员长期以来一直在寻求无监督学习的进步，在这种学习中，深度学习模型的训练不需要人工注释的数据。

近年来，这一领域取得了巨大的进步，尤其是在 LLM 领域，它们大多接受从互联网上收集的大量原始数据集的训练。虽然法学硕士在 2022 年继续取得进展，但我们也看到无监督学习技术的其他趋势越来越受欢迎。

例如，今年文本到图像的模型取得了惊人的进步。OpenAI 的DALL-E 2、谷歌的Imagen和 Stability AI 的Stable Diffusion等模型展示了无监督学习的力量。与需要注释良好的图像和描述对的旧文本到图像模型不同，这些模型使用互联网上已经存在的松散标题图像的大型数据集。他们的训练数据集的庞大规模（这仅是可能的，因为不需要手动标记）和字幕方案的可变性使这些模型能够找到文本和视觉信息之间的各种复杂模式。因此，它们在为各种描述生成图像方面更加灵活。

3. 多模态取得长足进步

文本到图像生成器还有另一个有趣的特性：它们在单个模型中组合了多种数据类型。能够处理多种模式使深度学习模型能够承担更复杂的任务。

多模态对于人类和动物的智能非常重要。例如，当你看到一棵树并听到风在它的树枝上沙沙作响时，你的大脑可以很快地将它们联系在一起。同样，当你看到“树”这个词时，你可以很快地联想到一棵树的形象，记住下雨后松树的味道，或者回忆起你以前有过的其他经历。

显然，多模态在使深度学习系统更加灵活方面发挥了重要作用。DeepMind 的Gato可能最好地展示了这一点，这是一种针对各种数据类型（包括图像、文本和本体感觉数据）进行训练的深度学习模型。Gato 在多项任务中表现出色，包括图像字幕、交互式对话、控制机械臂和玩游戏。这与旨在执行单一任务的经典深度学习模型形成对比。

一些研究人员已经提出了这样的概念，即我们只需要像 Gato 这样的系统来实现人工智能(AGI)。尽管许多科学家不同意这一观点，但可以肯定的是，多模态为深度学习带来了重要成就。

4. 深度学习的基本问题仍然存在

尽管深度学习取得了令人瞩目的成就，但该领域的一些问题仍未解决。其中包括因果关系、组合性、常识、推理、计划、直觉物理学以及抽象和类比。

这些是不同领域的科学家仍在研究的一些智力奥秘。纯粹的基于规模和数据的深度学习方法有助于在其中一些问题上取得渐进式进展，但未能提供明确的解决方案。

例如，较大的 LLM 可以在较长的文本中保持连贯性和一致性。但他们在需要细致的逐步推理和计划的任务上失败了。

同样，文本到图像生成器创建令人惊叹的图形，但在被要求绘制需要组合性或具有复杂描述的图像时会犯基本错误。

不同的科学家正在讨论和探索这些挑战，包括一些深度学习的先驱。其中最著名的是获得图灵奖的卷积神经网络 (CNN) 发明者 Yann LeCun，他最近写了一篇关于仅从文本中学习的 LLM的局限性的长文。LeCun 正在研究一种深度学习架构，该架构可以学习世界模型，并可以解决该领域目前面临的一些挑战。

深度学习已经走过了漫长的道路。但我们取得的进步越多，我们就越意识到创建真正智能系统的挑战。明年肯定会和今年一样令人兴奋。