回归OpenAI后首次演讲!李飞飞高徒Andrej Karpathy:GPT将走向何方?

人工智能 新闻
今年的微软Build开发者大会不仅放出王炸更新——Windows Copilot,特斯拉前AI总监Andrej Karpathy的演讲也发表了题为GPT现状的演讲,看点多多。

一年一度的微软「Build开发者大会」前两天刚刚开幕。

图片

微软CEO Satya Nadella在发布会上介绍了这次主要的更新,以ChatGPT为代表的生成式AI成为本次大会的重中之重,其中包括自家的重头戏——Windows Copilot。

图片

演讲视频链接:https://youtu.be/6PRiAexITSs

前段时间刚宣布回归OpenAI的业界大牛、李飞飞高徒、特斯拉前AI总监Andrej Karpathy,也在大会发表了题为「GPT现状」(State of GPT)的主题演讲。

图片

演讲内容主要包括了解ChatGPT等GPT助手的训练途径,他将其分为标记化(Tokenization)、预训练(Pretraining)、监督微调(Supervised Finetuning)和人类反馈强化学习 (RLHF)几步。

图片

另外,他还阐释了有效使用这些模型的实用技术和心智模型的方法,包括提示策略(Prompting Strategies)、微调(Finetuning)、快速增长的工具生态系统及其未来的扩展。

演讲的视频链接小编也放在下面啦,干货满满一起来看看~

视频链接:https://build.microsoft.com/en-US/sessions/db3f4859-cd30-4445-a0cd-553c3304f8e2

GPT助手的训练途径

在进行预训练之前,有2个准备步骤。

首先是数据收集——从不同来源获取大量数据,下图展示的是通过Meta LLaMA模型从Github、维基百科等来源收集的混合数据。

图片

接下来就是标记化,将文本中的单词标记并转换为整数。

图片

然后他用两个模型做了个对比,相比175B参数的GPT-3在300B个代币上训练,而65B参数的LLaMA已经在1-1.4T个代币上训练。

证明了「并不是参数大的模型性能就强」。

图片

预训练阶段

Andrej Karparthy首先介绍了一下预训练中Transformer的工作原理。

图片

然后向我们展示了GPT模型如何通过不断迭代,更准确地预测莎士比亚诗句中的单词。

图片

顺便重点强调了一下自家LLaMA模型的牛掰之处,从下图的训练曲线中可以看出LLaMA在训练损失方面明显要比传统GPT-2要低上不少。

图片

另外围绕GPT-2,许多学者注意到,如果我们以特定方式构建提示,并提供一些示例,那么基础模型将自动完成我们在提示中提供的指令。

基础模型不是助手,他们不会「根据你的提问回答」,他们只会自动完成文本。

比如在下面这篇文本里,对于人类提出的问题,模型通过输入的「Few-shot提示」让它误以为他它自动完成了人工智能和人类之间的聊天。

图片

Andrej接下来画出了GPT模型的进化树,可以看到顶端的模型包括谷歌的Bard,Meta的LLaMA。

图片

监督微调

通过使用交换数据集训练模型,我们得到了监督微调后的模型,简称SFT模型。

图片

但SFT模型还不是很好,绝对达不到ChatGPT质量,于是训练继续。

我们使用SFT模型生成问题输出,通过用户对三个版本的比较得出排名最佳的版本,然后根据用户的选择对模型进行重新训练。

而这些决策是根据用户的反馈而得出的,例如当你在ChatGPT中对问题的答案点击👍或👎,或选择重新生成响应,这也是RLHF(人类反馈强化学习)的基础。

有趣的是,Andrej谈到的RLHF并不是对基本模型的严格改进,因为RLHF模型的熵较小,因此它的创造性可能较少。

基础模型在生成答案的多样性方面可能比微调模型更优秀,例如下图生成的100个宝可梦的名字,基础模型能给你更多想要的答案。

图片

最后,Andrej展示了伯克利大学的校友制作的辅助模型的「野榜」,OpenAI的GPT-4似乎是目前最优秀的。

图片

Andrej接下来展示了人类和GPT模型在处理一个相同的句子的处理过程。

人脑对「加州的人口是阿拉斯加州的53倍」这句话的处理要经历提取信息、事实核查、计算、再次验证等过程。

图片

然而对GPT来说他要做的就是自动完成文本,没有内在的思考对话。

而像Chain of thought「思维链」这样的方法可以为模型提供更多标记或更多思考时间。

这将使模型展示它的工作原理,并给它思考时间以获得更好的答案。

图片

最后还展示了ChatGPT中工具的用法。

图片

演讲最后,Andrej再再再次强调了LLaMA就是迄今最优秀的模型,另外@YannLecun希望他能尽快将其推出商用。

责任编辑:张燕妮 来源: 新智元
相关推荐

2022-07-14 14:54:00

特斯拉AI自动驾驶

2024-09-29 13:30:00

2019-04-29 12:11:53

神经网络AI深度学习

2023-03-15 10:35:16

GPTAI

2021-01-31 17:39:23

云计算5G网络

2022-04-18 16:27:54

语音助手智能助理机器学习

2023-03-07 11:18:22

语音助手人工智能

2022-06-16 10:02:39

EASM攻击面管理

2023-03-31 16:33:03

云计算边缘计算

2019-01-08 12:26:04

2021-11-06 23:22:33

运维IT企业

2022-12-30 12:11:33

2019-04-28 09:17:20

AI 数据机器学习

2020-03-11 22:58:58

SD-WAN网络边缘安全

2010-01-01 19:28:39

3G

2012-02-15 14:49:19

2022-07-13 14:21:54

区块链Web 3.0

2010-02-07 11:25:20

2019-02-14 13:21:24

大数据数字化人工智能

2022-03-30 06:08:54

漏洞管理漏洞网络攻击
点赞
收藏

51CTO技术栈公众号