白话告诉你大模型到底是怎么工作的-51CTO.COM

图片

本文转载自微信公众号「程序反思录」，作者程序反思录。转载本文请联系程序反思录公众号。

前言

2022年底“大模型”在国内突然遍地开花，不管你身处什么行业，都或多或少听说或使用过大模型相关的工具，也听说过大模型训练是一件超级烧钱的事情。那你是否有想过大模型训练为什么会这么烧钱，或者说大模型到底大在了哪里呢？

防止劝退，阅读本文章你不用担心看不懂晦涩难懂的公式以及计算过程，本文仅作为一篇大模型科普文章，带你了解你使用的大模型背后的故事，文章最后会推荐一些帮助博主日常提效的大模型工具，希望通过本文能让你对大模型有新的认识和理解。

大模型的工作过程

图片

从上图可以看出，树左侧Encoder-Only：表示仅做学习和理解内容的工作；树右侧Decoder-Only：表示做内容生成的工作。大众目前使用的大模型工具也基本集中在树右侧，比如大名鼎鼎的chat-gpt系列模型。

大模型的训练构成可以拆解成：推理过程 + 训练过程，我们通过理解这两个过程来感受大模型到底是如何工作的。

推理过程

1. 词向量

向量表示：每个单词被表示为一个高维向量（比如三维、四维甚至更高维度），这些向量通常通过训练模型从大量文本数据数据中学习而获得的。
语义相似性：在向量空间中，语义相似的单词会被映射到相近的位置（类似于物以类聚人以群分的感觉）。例如，“king”和“queen”都有“国王”的意思，它两在向量空间中相对位置就比较近。

同义词的case：

king和queen都有“国王”的意思，big和biggest都表示大的意思。

同音异义词（一词多义）的case：

china：既可以表示为“中国”的意思，也可以理解成“瓷器”的意思；magazine：可以指代杂志或者是杂志社。

无论是同义词还是同音异义词在大模型中是如何区分的呢？那就是向量的概念，对于多义词的含义使用的向量比较相似，而对于同音异义词使用的向量则不太相似。

2. 词向量模型

WOrd2Vec(2013年)：由Google提出，包括CBOW（Continuous Bag Of Words）和Skip-Gram。前者通过预测上下文词来学习目标词的标识，后者通过目标词来预测上下文词。
GlocVe(2014年)：由斯坦福大学提出，通过统计整个语料库中的词共现矩阵来学习词向量。
FastText(2016年)：由Facebook提出，扩展了Word2Vec，考虑了词的子词（subword）信息，使得模型在处理未见过的单词或拼写错误时有更好的表现。

3. Transformer架构

图片

transformer框架通过修改词向量来存储每个词的隐藏含义（即上图中空色字体的内容），通过第一层transformer处理输出后的新向量被称为隐藏状态hidden state，然后在传递给下一层transformer，在经过transformer处理，解释出来了his和bank的真实语境含义。

对于Chat-GPT3大模型，transformer的中间层数达到了96层，有研究表名前基层的神经网络会专注于理解句子的语法，并解决上面所表示的歧义，后面的层重点致力于对整个文本段落的更高层次的理解。

对于GPT3模型，它使用了12288维的词向量，也就意味着每个词有12288个维度；所以一个单词通过输入到最后数据的输出就需要计算1179648次（有没有感觉计算量非常大）; 同时GPT3需要理解上下文之间关联更多的信息，需要引入注意力头的概念来进行信息的表达，在每一层的transformer都会存在96个注意力头，所以在每次预测一个新词的时候，需要执行9126次计算。

由于模型是通过海量简单的向量运算，所以非常适合在GPU上进行训练，同时由于计算数据量级超级大，一次模型训练可能需要花上几十天甚至更多，算力和电力成本可想而知是非常巨大的。

训练过程

1. 早期的机器学习算法

早期的机器学习算法主要分为有监督和无监督学习两大类。

有监督学习：用于训练的样本数据提前被打上各种标签，让机器提前知道样本真正代表了什么，随着机器不断学习之后，投喂给机器一个未打标签的数据，从而让它得出这个数据对应的标签是什么。

无监督学习：提前并未给训练数据打上任何标签，而是让机器自动计算，通过不断的计算迭代后，最终相似的数据逐渐聚合在一起，不相似的数据则逐渐远离。

对于有监督学习，由于需要预先对大量数据人工打上标签，导致训练大模型这件事情就变得非常困难且成本非常高，以至于无法继续推进，那么无监督学习对于大模型来说可实施性相对就更强一些（当然对于GPT，在实际训练过程中，也会有部分人工达标的工作用于修正模型）。

2. 大模型的训练过程

通过尝试预测文本段落中的下一个单词来学习几乎任何的书面材料。对于一个新的模型，一开始预测的结果很差，因为对于一个新模型，它的每个权重参数最初状态都是从一个随机数字开始，随着模型接触到越来越的case，模型开始调整参数权重，从而实现GPT3的效果。

一个具体的case：城市地下网络管道非常多且错综复杂，为了让水流出到指定位置，当水流过错误的管道，就需要将对应管道的水龙头关闭，在整个水流经的管道上，通过反复的向前后向后检查流经路径，并调整对应的管道阀门，最终水流向了指定的目的地，这个反复调整各个部位的权重的过程，正是大模型训练的一个过程。

当然在整个训练过程中还有很多具体的概念，比如前向传播、后向传播、以及损失函数等，不会在本文展开，感兴趣的朋友可以自行通过GPT/百度来了解详细过程。

工具推荐

推荐一些博主日常使用的大模型工具，供大家参考

可灵大模型（视频&图片生成）

官网地址：https://kling.kuaishou.com/

APP：可灵AI

图片

秘塔AI搜索（学术搜索）

官网地址：https://metaso.cn/

APP：秘塔AI搜索

图片

Kimi智能助手（百科搜索）

官网地址：https://kimi.moonshot.cn/

APP：Kimi只能助手

图片

豆包（百科搜索、知识问答）

官网地址：https://www.doubao.com/chat/

APP：豆包

图片

通义灵码（代码续写）

官网地址：https://tongyi.aliyun.com/lingma/

图片

总结

本文通过大白话的方式介绍了大模型的一个基础训练过程，以及浅显的展示了大模型究竟大到了哪里，从而理解大模型训练庞大的数据为什么那么贵，随着技术的快速发展，相信未来大模型一定会对我们的生活产生非常大的影响。