回归OpenAI后首次演讲！李飞飞高徒Andrej Karpathy：GPT将走向何方？-51CTO.COM

一年一度的微软「Build开发者大会」前两天刚刚开幕。

微软CEO Satya Nadella在发布会上介绍了这次主要的更新，以ChatGPT为代表的生成式AI成为本次大会的重中之重，其中包括自家的重头戏——Windows Copilot。

演讲视频链接：https://youtu.be/6PRiAexITSs

前段时间刚宣布回归OpenAI的业界大牛、李飞飞高徒、特斯拉前AI总监Andrej Karpathy，也在大会发表了题为「GPT现状」（State of GPT）的主题演讲。

演讲内容主要包括了解ChatGPT等GPT助手的训练途径，他将其分为标记化（Tokenization）、预训练（Pretraining）、监督微调（Supervised Finetuning）和人类反馈强化学习 (RLHF)几步。

另外，他还阐释了有效使用这些模型的实用技术和心智模型的方法，包括提示策略（Prompting Strategies）、微调（Finetuning）、快速增长的工具生态系统及其未来的扩展。

演讲的视频链接小编也放在下面啦，干货满满一起来看看~

视频链接：https://build.microsoft.com/en-US/sessions/db3f4859-cd30-4445-a0cd-553c3304f8e2

在进行预训练之前，有2个准备步骤。

首先是数据收集——从不同来源获取大量数据，下图展示的是通过Meta LLaMA模型从Github、维基百科等来源收集的混合数据。

接下来就是标记化，将文本中的单词标记并转换为整数。

然后他用两个模型做了个对比，相比175B参数的GPT-3在300B个代币上训练，而65B参数的LLaMA已经在1-1.4T个代币上训练。

证明了「并不是参数大的模型性能就强」。

Andrej Karparthy首先介绍了一下预训练中Transformer的工作原理。

然后向我们展示了GPT模型如何通过不断迭代，更准确地预测莎士比亚诗句中的单词。

顺便重点强调了一下自家LLaMA模型的牛掰之处，从下图的训练曲线中可以看出LLaMA在训练损失方面明显要比传统GPT-2要低上不少。

另外围绕GPT-2，许多学者注意到，如果我们以特定方式构建提示，并提供一些示例，那么基础模型将自动完成我们在提示中提供的指令。

基础模型不是助手，他们不会「根据你的提问回答」，他们只会自动完成文本。

比如在下面这篇文本里，对于人类提出的问题，模型通过输入的「Few-shot提示」让它误以为他它自动完成了人工智能和人类之间的聊天。

Andrej接下来画出了GPT模型的进化树，可以看到顶端的模型包括谷歌的Bard，Meta的LLaMA。

通过使用交换数据集训练模型，我们得到了监督微调后的模型，简称SFT模型。

但SFT模型还不是很好，绝对达不到ChatGPT质量，于是训练继续。

我们使用SFT模型生成问题输出，通过用户对三个版本的比较得出排名最佳的版本，然后根据用户的选择对模型进行重新训练。

而这些决策是根据用户的反馈而得出的，例如当你在ChatGPT中对问题的答案点击👍或👎，或选择重新生成响应，这也是RLHF（人类反馈强化学习）的基础。

有趣的是，Andrej谈到的RLHF并不是对基本模型的严格改进，因为RLHF模型的熵较小，因此它的创造性可能较少。

基础模型在生成答案的多样性方面可能比微调模型更优秀，例如下图生成的100个宝可梦的名字，基础模型能给你更多想要的答案。

最后，Andrej展示了伯克利大学的校友制作的辅助模型的「野榜」，OpenAI的GPT-4似乎是目前最优秀的。

Andrej接下来展示了人类和GPT模型在处理一个相同的句子的处理过程。

人脑对「加州的人口是阿拉斯加州的53倍」这句话的处理要经历提取信息、事实核查、计算、再次验证等过程。

然而对GPT来说他要做的就是自动完成文本，没有内在的思考对话。

而像Chain of thought「思维链」这样的方法可以为模型提供更多标记或更多思考时间。

这将使模型展示它的工作原理，并给它思考时间以获得更好的答案。

最后还展示了ChatGPT中工具的用法。

演讲最后，Andrej再再再次强调了LLaMA就是迄今最优秀的模型，另外@YannLecun希望他能尽快将其推出商用。