大模型系列:一文带你梳理Large Language Model发展历程

发布于 2025-3-14 00:04
浏览
0收藏

在这个系列文章中,我会用通俗的语言,为大家介绍学习大模型的核心知识点。读完这个系列的文章,你会深入理解语言大模型、多模态大模型的核心技术点,包括模型结构、训练方式、数据处理、多模态融合等。

大模型的前身是语言模型,圆圆是很早就开始在工业界研究和应用语言模型的一批人,因此对整个深度学习时代语言模型的发展历程都有见证。当时还没有Transformer、BERT,只有LSTM、Attention这种结构。工业界效果最好、应用最稳定的语言模型,还是基于n-gram的统计版语言模型。

后来,随着Transformer和BERT的相继出现,基于深度学习的语言模型才开始取得主导型的效果和地位。随后的三四年,BERT这种判别式的模型一直是工业界的主流,模型的尺寸和训练数据量也不断增大。直到ChatGPT的出现,开启了真正的生成式大语言模型时代,直到近期的DeepSeek。过程中,也伴随着多模态方向的研究。

在第一节中,会重点给大家梳理一下从n-gram到DeepSeek,整个大模型的发展历史。针对每个演进版本语言模型的详细介绍,将在后续章节逐一介绍。

1.N-gram统计语言模型

N-gram是语言模型最基础的建模方法,也是深度学习之前主要的语言模型建模方法。N-gram的核心思路是,根据大量的语料,统计出前面n-1个词已知的情况下,第n个词的概率。比如最基础的2-gram,统计连续2个单词出现的概率,当根据前序单词预测下一个单词时,之前出现次数频率最高的就是更加合理。

N-gram这种统计模型的问题在于,N太大时数据很稀疏,N太小能考虑的上下文信息就比较少,虽然有一些平滑方法能够提升N-gram在稀疏数据下的表现,但是上限仍然比较低。

大模型系列:一文带你梳理Large Language Model发展历程-AI.x社区

2.词向量

词向量是机器学习时代的NLP领域常见方法,也是后续深度学习语言模型的基础。通过将每个单词映射成一个向量,向量之间的距离能够反应2个词语义的相似度,实现相比n-gram更具泛化性的文本表征方法。

词向量的本质思路是,一个词的含义,可以由其上下文出现的其他词表示。统计大量语料中,词之间的共现关系。两个词的上下文越相似,这两个词的语义就越相似。这个统计过程,使用神经网络在大量的文本语料上自动学习,实现了表征的泛化性。Skip-gram、CBOW、Glove等都是最常用的词向量模型。

大模型系列:一文带你梳理Large Language Model发展历程-AI.x社区

3.LSTM/Attention深度语言模型

随着深度学习的发展,LSTM网络、Attention结构等被用来构建深度学习的语言模型。语言是序列形式的,天然适合LSTM这种序列建模模型。在统计n-gram时,前序单词决定下一个单词,LSTM就具备这种建模能力。所以一个最基础的基于LSTM的语言模型,就是对于每段文本输入到一个LSTM网络中,让其预测下一个单词,通过这种训练方式实现对任务长度gram的。这种基于LSTM的语言模型也经过了多个阶段的发展,最后发展到2018年的ELMo,通过两组单向LSTM融合的方式提取两侧的上下文信息。

大模型系列:一文带你梳理Large Language Model发展历程-AI.x社区

此外,Attention也经常用来和LSTM相结合,弥补LSTM在长周期建模中的不足。例如在机器翻译中,使用LSTM和Attention相结合,快速获取历史长文本中和当前待预测位置相关的部分。

4.Transformer:GPT和BERT

Transformer的出现,以及其衍生出来的GPT和BERT,开启了深度学习语言模型的新时代,也是大模型的基础。Transformer结构至今仍然是各个开源大模型的基础模型结构。它完全基于Attention结构进行一段文本中单词之间的关系计算。

大模型系列:一文带你梳理Large Language Model发展历程-AI.x社区

根据建模方式的差异,又分为以BERT为代表的判别式模型和以GPT为代表的生成式模型。BERT这种判别式,只有一个Encoder,Mask掉部分token用上下文其他token还原。GPT这种生成式模型,则仍然采用n-grapm的形式,根据前面token生成下一个token。

在最开始的几年中,BERT一直是工业界主要使用的方法,而GPT因为其相对复杂的生成式过程,应用较少。当然,后续ChatGPT等的出现,证明GPT才是更适合作为人机接口的语言模型建模形式,是BERT等判别式模型无法替代的。

BERT和GPT分别有一系列的改进工作。和BERT相关的,包括ALBERT、RoBERTa、DeBERTa等各种从性能角度、效果角度的优化,也包括ELECTRA等引入外部知识库的优化。GPT相关的改进则相对较少(当时BERT更火,主流都在研究如何优化BERT),主要还是GPT后的GPT2、GPT3等。

5.大模型时代:ChatGPT

ChatGPT的出现开启了大模型的时代。其前序工作包括GPT1、GPT2、GPT3、InstructGPT等。GPT1的核心是无监督语言模型预训练;GPT2的核心是更多的训练数据、更大的模型尺寸;GPT3的核心是prompt和in-context learning,挖掘语言模型的理解能力;InstructGPT的核心是如何让GPT生成的回答更符合人类的需求,核心是引入了强化学习机制,基于强化学习的思想去优化无监督预训练模型产出的文本,让其更符合人类的需求。

大模型系列:一文带你梳理Large Language Model发展历程-AI.x社区

ChatGPT的数据处理方法、模型结构和强化学习方法,是LLM最核心的组件。在模型结构方面,后续出现的LLaMA,则是现在包括DeepSeek等大模型的基础模型结构。

6.DeepSeek/千问

在ChatGPT后,各大机构都开始研究LLM,提出了一系列的LLM建模方式、应用方式。在这个过程中,LLM的应用越来越广泛,到目前为止很多人都已经开始使用LLM。这里重点介绍两个国内比较有代表性的,目前最先进的LLM。一个是DeepSeek,一个是阿里的通义千问。它们基于前序的LLM成功经验,对模型结构、训练流程、性能优化等做了大量改造,逐步提升了LLM性能。比如DeepSeek,目前的应用版本,经历了V1~V3,再到R1的升级,引入了包括MoE、深度思维链样本强化学习等,逐步提升LLM性能。

在后续的章节中,会进一步展开详细介绍LLM的上述发展过程中,各个阶段的代表性工作、技术原理等的深度解析。

大模型系列:一文带你梳理Large Language Model发展历程-AI.x社区

本文转载自 圆圆的算法笔记​,作者: Fareise

已于2025-3-14 00:04:17修改
收藏
回复
举报


回复
相关推荐