从Google Gemini到OpenAI Q*：生成式AI研究领域全面综述-51CTO.COM

近日，来自澳大拉西亚理工学院、梅西大学和皇家墨尔本理工大学等机构的研究人员进行了一项全面的综述，深入探讨了生成式AI不断演变的格局。

研究特别关注了混合专家模型（MoE）、多模态学习的变革性影响，以及对通用人工智能（AGI）的推测进展。

论文地址：https://arxiv.org/abs/2312.10868

- 严格审视了生成式人工智能（AI）的当前状态和未来轨迹，探索了像谷歌的Gemini和期待中的OpenAI Q*项目这样的创新是如何重塑研究优先事项和在各个领域的应用，包括对生成式AI研究分类法的影响分析。

- 评估了这些技术的计算挑战、可扩展性和现实世界的影响，同时强调了它们在推动像医疗健康、金融和教育等领域显著进展的潜力。

- 讨论了由AI主题和AI生成的预印本的扩散所带来的新兴学术挑战，检查了它们对同行评审过程和学术交流的影响。

- 强调了在AI发展中融入伦理和以人为本的方法的重要性，确保与社会规范和福祉的一致，并概述了一个未来AI研究的战略，该战略聚焦于MoE、多模态和AGI在生成式AI中的平衡和审慎使用。

人工智能（AI）的历史背景可以追溯到艾伦·图灵的「模仿游戏」、早期的计算理论，以及第一批神经网络和机器学习的发展，这为今天的高级模型奠定了基础。

这种演变，被像深度学习和强化学习的兴起这样的关键时刻突出地表现出来，对塑造当代AI的趋势至关重要，包括复杂的混合专家模型（MoE）和多模态AI系统，展示了该领域的动态和不断演进的特性。这些进展证明了AI技术的动态和不断发展的本质。

人工智能（AI）的演化在大语言模型（LLM）的出现，特别是由OpenAI开发的ChatGPT，以及最近Google的Gemini的揭幕，见证了一个关键的转折点。这项技术不仅彻底改变了行业和学术界，还重新点燃了关于AI意识及其对人类潜在威胁的关键讨论。

这样的先进AI系统的发展，包括像Anthropic的Claude和现在的Gemini这样的重要竞争者，它们展示了对比GPT-3和Google自己的LaMDA的几项进步，重塑了研究格局。

Gemini具有通过双向对话学习的能力，以及其「spike-and-slab」注意力方法，使其能够在多轮对话中专注于上下文的相关部分，代表了在开发更适合多领域对话应用的模型方面的重大飞跃。这些在LLM中的创新，包括Gemini所采用的混合专家方法，标志着向能够处理多样输入并促进多模态方法的模型的转变。

在这种背景下，OpenAI被称为Q*（Q-Star）的项目的猜测已经浮出水面，据称结合了LLM的强大能力和像Q学习和A*（A-Star算法）这样的复杂算法，进一步促进了动态的研究环境。

人工智能研究热度的变化

随着大语言模型（LLM）领域的不断发展，由Gemini和Q*等创新所体现，大量研究浮现出来，旨在描绘未来研究的道路，这些研究从识别新兴趋势到强调快速进展的领域各不相同。

已建立方法和早期采纳的二分法很明显，LLM研究中的「热门话题」正日益转向多模态能力和由对话驱动的学习，正如Gemini所展示的那样。

预印本的传播加速了知识共享，但也带来了降低学术审查的风险。Retraction Watch指出的固有偏见问题，以及关于剽窃和伪造的担忧，构成了重大障碍。

因此，学术界站在一个十字路口，需要统一努力，以根据该领域快速发展的背景来完善研究方向，这种变化似乎可以通过随时间变化的不同研究关键词的流行程度来部分追踪。

像GPT这样的生成式模型的发布和ChatGPT的广泛商业成功具有影响力。

如图1所示，某些关键词的兴衰似乎与重要的行业里程碑有关，例如2017年「Transformer」模型的发布、2018年GPT模型的发布，以及2022年12月商业化的ChatGPT-3.5。

图片

例如，与神经网络应用的突破相一致的是对「深度学习」的搜索高峰，而随着像GPT和LLaMA这样的模型重新定义了语言理解和生成的可能性，「自然语言处理」的兴趣激增。

尽管有些波动，对AI研究中的「伦理/道德」持续关注反映了对AI道德维度的持续和根深蒂固的关切，强调道德考虑不仅仅是一种反应措施，而是AI讨论中不可分割和持久的对话。

从学术角度来看，假设这些趋势是否意味着一种因果关系，即技术进步驱动研究重点，或者蓬勃发展的研究本身推动了技术发展，这是相当有趣的。

本文还探讨了AI进步的深远社会和经济影响。作者检查了AI技术如何重塑各个行业，改变就业格局，并影响社会经济结构。这一分析突出了AI在现代世界中所提出的机遇和挑战，强调了其在推动创新和经济增长方面的作用，同时也考虑了伦理影响和对社会的潜在破坏性。

未来的研究可能会提供更明确的见解，但创新与学术好奇心之间的同步互动仍然是AI进步的标志。

与此同时，如图2所示，在arXiv上发布的计算机科学>人工智能（cs.AI）类别下的预印本数量的指数增长，似乎标志着AI社区内研究传播的范式转变。

尽管快速分发研究成果使知识交流迅速，但它也引发了对信息验证的担忧。

预印本的激增可能导致未经验证或有偏见的信息的传播，因为这些研究没有经过同行评审出版物典型的严格审查和可能的撤回。

这一趋势强调了学术界需要谨慎考虑和批判，特别是考虑到这些未经审核的研究可能被引用和它们的发现被传播的潜力。

研究目标

这篇综述的动力是Gemini的正式揭幕和围绕Q项目的推测性讨论，这促使对生成式人工智能（AI）研究的主流趋势进行及时审视。

论文具体贡献于理解混合专家模型（MoE）、多模态和人工通用智能（AGI）如何影响生成式AI模型，为这三个关键领域提供详细的分析和未来方向。

论文旨在批判性地评估现有研究主题中过时或无关紧要的可能性，同时深入探讨在快速变化的LLM格局中新兴的前景。

预期AI的进步不仅会在语言分析和知识合成方面提高能力，还将在混合专家模型（MoE）、多模态和人工通用智能（AGI）等领域开创先河，并已经宣告了传统的、以统计为驱动的自然语言处理技术在许多领域的过时。

然而，AI与人类伦理和价值观保持一致的永恒要求仍然是一个基本原则，而推测性的Q-Star计划提供了一个前所未有的机会，来引发关于这些进步如何重塑LLM研究地形的讨论。

在这种环境中，NVIDIA高级研究科学家Jim Fan对Q的见解，尤其是关于学习和搜索算法的融合，为这种努力的潜在技术构建和能力提供了宝贵的视角。

论文的研究方法涉及使用「大型语言模型」和「生成式AI」等关键词进行结构化文献搜索。

作者在IEEE Xplore、Scopus、ACM Digital Library、ScienceDirect、Web of Science和ProQuest Central等几个学术数据库中使用过滤器，以识别2017年（Transformer模型发布）到2023年（本文撰写时间）期间发表的相关文章。

本文旨在剖析Gemini和Q的技术影响，探讨它们（以及类似技术的不可避免出现）如何改变研究轨迹并在AI领域开辟新视野。

在此过程中，我们确定了三个新兴的研究领域——MoE、多模态和AGI——它们将深刻地重塑生成式AI研究格局。

本次调查采用综述式方法，系统地绘制了一幅综合并分析生成式AI当前和新兴趋势的研究路线图。

本研究的主要贡献如下：

1) 对生成式AI不断演变的格局进行了详细考察，强调了像Gemini和Q这样的技术的进步和创新及其在AI领域的广泛影响。

2) 分析了先进生成式AI系统对学术研究的转型效应，探讨了这些发展如何改变研究方法、设立新趋势，并可能导致传统方法的过时。

3) 全面评估了生成式AI在学术界整合中引起的伦理、社会和技术挑战，强调了将这些技术与伦理规范保持一致的重要性，确保数据隐私，并制定全面的治理框架。

当前生成式AI研究分类法生成式人工智能（AI）领域正在迅速发展，这需要一个全面的分类法，涵盖该领域内研究的广度和深度。

如表I所详述，这个分类法将生成式AI的主要研究和创新领域进行了分类，并作为理解该领域当前状态的基础框架，指导我们穿越不断发展的模型架构、先进训练方法、多样的应用领域、伦理含义和新兴技术前沿的复杂性。

图片

生成式AI模型架构经历了显著的发展，其中四个关键领域尤为突出：

Transformer模型：Transformer模型在AI领域，尤其是在自然语言处理（NLP）中，因其更高的效率和可扩展性而引起了革命性的变化。它们采用先进的注意力机制来实现增强的上下文处理，使得对细微理解和交互成为可能。这些模型也在计算机视觉领域取得了显著进展，例如开发了EfficientViT和YOLOv8这样的视觉Transformer。这些创新象征了Transformer模型在如对象检测等领域的扩展能力，不仅提高了性能，还增强了计算效率。
循环神经网络（RNNs）：RNNs在序列建模领域表现卓越，特别适用于处理涉及语言和时间数据的任务，因为它们的架构专门设计用于处理数据序列，如文本，使它们能有效捕捉输入的上下文和顺序。这种处理序列信息的能力使它们在需要深入理解数据时间动态的应用中不可或缺，例如自然语言任务和时间序列分析。RNNs在维持序列上连续性方面的能力是AI更广泛领域的关键资产，特别是在上下文和历史数据发挥关键作用的场景中。
混合专家模型（MoE）：MoE模型通过在多个专业化专家模块上部署模型并行处理，显著提高效率，使这些模型能够利用基于Transformer的模块进行动态令牌路由，并扩展到数万亿参数，从而降低内存占用和计算成本。MoE模型因其能够在不同的专家之间分配计算负载而脱颖而出，每个专家专注于数据的不同方面，这使得更有效地处理大规模参数，导致更高效和专业化地处理复杂任务。
多模态模型：多模态模型整合了如文本、视觉和音频等多种感官输入，对于全面理解复杂数据集至关重要，尤其是在诸如医学成像等领域具有变革性作用。这些模型通过使用多视图管道和交叉注意力模块，实现准确和数据高效的分析。这种多样感官输入的整合，使得数据解释更为细腻和详尽，增强了模型准确分析和理解各种信息类型的能力。不同数据类型的组合，同时处理，使这些模型能够提供全面视图，特别适用于需要深入和多方面理解复杂情景的应用。

生成式AI研究中的新兴趋势正在塑造技术和人类互动的未来，并表明了一个向更集成、交互和智能化的AI系统的动态转变，推动AI领域可能性的边界向前发展。这一领域的关键发展包括：

多模态学习：AI中的多模态学习是一个快速发展的子领域，专注于结合语言理解、计算机视觉和音频处理，以实现更丰富、多感官的上下文意识。最近的发展，如Gemini模型，通过在各种多模态任务中展示最先进的性能，包括自然图像、音频和视频理解以及数学推理，树立了新的基准。Gemini的固有多模态设计体现了不同信息类型之间的无缝整合和操作。尽管取得了进步，多模态学习领域仍面临着持续的挑战，例如改进架构以更有效地处理多样化的数据类型，开发能够准确代表多方面信息的综合数据集，以及建立评估这些复杂系统性能的基准。
交互式和协作式AI：这个子领域旨在增强AI模型与人类在复杂任务中有效协作的能力。这一趋势聚焦于开发可以与人类共同工作的AI系统，从而在各种应用中提高用户体验和效率，包括生产力和医疗保健。这个子领域的核心方面涉及在可解释性、理解人类意图和行为（心理理论），以及AI系统与人类之间的可扩展协调方面推进AI，这种协作方法对于创造更直观和交互式的AI系统至关重要，能够在多样化的情境中协助和增强人类能力。
AGI开发：AGI代表了打造模仿人类认知的全面和多方面特性的AI系统的远见目标，是一个专注于开发具有整体理解和复杂推理能力的AI的子领域，这些能力与人类认知能力的深度和广度密切相关。AGI不仅仅是复制人类智能，还涉及打造能够自主执行多种任务、展示与人类相似的适应性和学习能力的系统。AGI的追求是一个长期愿景，不断推动AI研究和发展的边界。
AGI限制：AGI安全和限制承认与高度先进的AI系统相关的潜在风险，专注于确保这些先进系统不仅在技术上精湛，而且在伦理上与人类价值观和社会规范保持一致。随着我们向发展超级智能系统的方向前进，建立严格的安全协议和控制机制变得至关重要。关注的核心领域包括缓解表征偏见、解决分布变化，以及在AI模型中纠正虚假相关性。目标是通过将AI发展与负责任和伦理标准保持一致，防止意外的社会后果。

Q*的推理能力

图片

在蓬勃发展的AI领域中，备受期待的Q项目被视为潜在突破的灯塔，预示着可能重新定义AI能力格局的进步（见图5）。

A. 增强的通用智能

Q在通用智能领域的发展代表了从专业化到整体化AI的范式转变，表明了模型认知能力类似于人类智能的扩展。这种高级形式的通用智能涉及整合多种神经网络架构和机器学习技术，使AI能够无缝地处理和综合多方面的信息。通用适配器方法，模仿像T0这样的模型，可能赋予Q快速吸收来自各个领域知识的能力。这种方法允许Q*学习适应性模块插件，增强其处理新数据类型的能力，同时保留现有技能，从而形成一个将狭窄专业化结合成为全面、适应性和多功能推理系统的AI模型。

B. 高级自学与探索

在高级人工智能（AI）开发领域，Q*预计将代表自学习和探索能力的显著进化。有人猜测它将使用复杂的策略神经网络（NNs），类似于AlphaGo中的那些，但对于处理语言和推理任务的复杂性进行了实质性的增强。预计这些网络将采用高级的强化学习技术，如近端策略优化（PPO），这稳定了策略更新并提高了样本效率，这是自主学习中的一个关键因素。将这些NNs与尖端搜索算法结合，可能包括思维树或思维图的新型迭代版本，被预测为使Q能够自主导航和吸收复杂信息。这种方法可能会利用图神经网络来增强元学习能力，使Q能够迅速适应新任务和环境，同时保留先前获得的知识。

C. 卓越的人类水平理解

有人猜测，Q实现卓越的人类水平理解的愿望可能依赖于多个神经网络的高级集成，其中包括价值神经网络（VNN），与AlphaGo等系统中的评估组件相似。这个网络将不仅仅限于评估语言和推理过程中的准确性和相关性，还会深入探讨人类沟通的微妙之处。该模型的深度理解能力可以通过先进的自然语言处理算法和技术来增强，比如在DeBERTa等Transformer架构中找到的那些。这些算法将使Q能够解释不仅仅是文本，还包括意图、情感和潜在含义等微妙的社交情感方面。通过结合情感分析和自然语言推理，Q*可以浏览各种社交情感洞察，包括共情、讽刺和态度。

D. 高级常识推理

有人预测，Q在高级常识推理方面的发展将整合复杂的逻辑和决策算法，可能结合了符号AI和概率推理的元素。这种整合旨在赋予Q对日常逻辑的直观理解，以及与人类常识类似的理解，从而弥合人工智能和自然智能之间的重要差距。Q推理能力的增强可能涉及到图结构化的世界知识，包括物理和社交引擎，类似于CogSKR模型中的引擎。这种以物理现实为基础的方法预计能够捕捉并解释当代人工智能系统经常缺乏的日常逻辑。通过利用大规模知识库和语义网络，Q可以有效地应对复杂的社交和实际场景，使其推理和决策更贴近人类的经验和期望。

E. 广泛的现实世界知识整合

有人猜测，Q整合广泛的现实世界知识的方法可能涉及使用先进的形式验证系统，这将为验证其逻辑和事实推理提供坚实的基础。当与复杂的神经网络架构和动态学习算法相结合时，这种方法将使Q能够深入参与现实世界的复杂性，超越传统人工智能的限制。此外，Q*可能会使用数学定理证明技术进行验证，确保其推理和输出不仅准确，而且在伦理上有基础。在这个过程中加入伦理分类器进一步增强了其能力，以提供可靠和负责任的对现实世界情景的理解和互动。

结论

这份综述调查着手探索了生成式AI研究中的变革性趋势，特别关注了像Q*这样的推测性进展以及向人工通用智能（AGI）的进步步伐。

论文的分析突出了一个关键的范式转变，由混合专家模型（MoE）、多模态学习和对AGI的追求等创新所驱动。这些进步预示了一个未来，AI系统在推理、上下文理解和创造性问题解决方面的能力可能显著提升。

尽管有这些进步，仍然存在一些未解决的问题和研究空白。

这些包括确保先进AI系统与人类价值观和社会规范的伦理一致性，这一挑战因它们日益增长的自主性而变得更为复杂。

在多样化环境中AGI系统的安全性和健壮性也仍是一个重大研究空白。应对这些挑战需要多学科方法，融合伦理、社会和哲学视角。

这项调研强调了AI未来跨学科研究的关键领域，强调伦理、社会和技术视角的整合。这种方法将促进协作研究，弥合技术进步与社会需求之间的差距，确保AI发展与人类价值观和全球福祉保持一致。

在我们继续前进时，AI进步与人类创造力之间的平衡不仅是一个目标，而且是一个必要性，确保AI的作用是一个补充力量，增强我们创新和解决复杂挑战的能力。

我们的责任是引导这些进步，丰富人类体验，使技术进步与伦理标准和社会福祉保持一致。