ChatGPT vs. GPT-3 vs. GPT-4只是聊天机器人家族的内部斗争-51CTO.COM

在解释SoMin公司的广告文案和横幅生成功能时，经常有人会问，是否用ChatGPT取代了GPT-3，或者是否仍然在运行过时的模式。“我们没有，也不打算这样做。”SoMin公司发言人给出这样的回答，尽管OpenAI公司推出的ChatGPT这款聊天机器人正在蓬勃发展。这往往会让客户大吃一惊，以下解释一下他为什么要给出这样的回答。

在人工智能模型中占有一席之地

GPT-2、GPT-3、ChatGPT以及最近推出的GPT-4都属于同一类人工智能模型——Transformer。这意味着，与上一代机器学习模型不同，它们被训练来完成更统一的任务，因此它们不需要为每个特定的任务重新训练来产生可行的结果。后者解释了它们的巨大规模(在GPT-3的例子中有1750亿个参数)，而一个模型可能需要“记住整个互联网”，才能足够灵活地根据用户输入在不同的数据片段之间切换。然后，当用户输入查询的问题，描述任务和几个示例(就像你向图书管理员询问感兴趣的书籍一样)时，模型能够生成结果。这种方法被称为“小样本学习”(Few-Shot Learning)，最近在为现代Transformer模型提供输入已成为一种趋势。

但是，为了完成当前的任务，是否总是需要掌握所有的互联网知识呢?当然不是——在很多情况下，就像ChatGPT一样，需要大量 (数以百万计)特定于任务的数据样本，这些样本将允许模型启动“从人类反馈中强化学习(RLHF)”过程。反过来，RLHF将衍生出人工智能和人类之间进行的协作训练过程，以进一步训练人工智能模型，以产生类似人类的对话。因此，ChatGPT不仅在聊天机器人场景中表现出色，而且还帮助人们编写短篇内容(例如诗歌或歌词)或长篇内容(例如论文);当人们需要快速获得答案时，可以采用简单的术语或深入的知识解释复杂的话题;提供头脑风暴、新的话题和想法，这在创作过程中是有帮助的，支持销售部门进行个性化沟通，例如生成电子邮件进行回复。

虽然从技术上来说，大型Transformer模型可以尝试完成这些任务，但不太可能由ChatGPT甚至GPT-4来完成——这是因为ChatGPT和其他OpenAI的Transformer对世界发生的事件了解非常有限，因为它们是预训练的模型，因此由于模型再训练的计算需求非常大，因此它们的数据更新不够频繁。这可能是迄今为止OpenAI(以及其他任何公司)所生成的所有预训练模型中最大的缺点。一个更大的问题是针对ChatGPT的：与GPT-3不同，它是在一个非常集中的对话数据集上进行训练的，因此，只有在对话任务中ChatGPT才能超越它的前辈，而在完成其他人类生产力任务时，它就不那么先进。

成长中的大型语言模型家族

人们现在知道ChatGPT只是GPT-3的一个更小、更具体的版本，但这是否意味着在不久的将来会有更多这样的模型出现：用于营销的MarGPT，用于数字广告的AdGPT，用于回答医疗问题的MedGPT?

这是有可能的，其原因如下：当SoMin公司提交一份申请以获得GPT-3 Beta的访问权限时，尽管填写了一份冗长的申请表，详细解释了将要构建的当前软件，但被要求同意提供关于每天如何使用模型以及所收到的结果的反馈。OpenAI公司这样做是有原因的，主要是因为这是一个研究项目，他们需要对模型的最佳应用进行商业洞察，他们通过众筹来换取参与这场伟大的人工智能革命的机会。聊天机器人应用程序似乎是最受欢迎的应用程序之一，所以ChatGPT首先出现。ChatGPT不仅规模更小(200亿个参数vs.1750亿个参数)，而且比GPT-3更快，而且在解决会话任务时比GPT-3更准确——对于低成本/高质量的人工智能产品来说，这是一个完美的商业案例。

那么，对于生成式人工智能来说，规模越大越好吗?其答案是，要视情况而定。当人们正在构建一个能够完成许多任务的通用学习模型时，其答案是肯定的，其规模越大越好，GPT-3比GPT-2和其他前辈的优势证明了这一点。但是，当人们想要很好地完成一项特定的任务时，就像ChatGPT中的聊天机器人一样，那么与模型和数据大小相比，数据焦点和适当的训练过程要重要得多。这就是为什么在SoMin公司没有使用ChatGPT来生成文案和横幅的原因，而是利用特定的数字广告相关数据来指导GPT-3为尚未看到的新广告制作更好的内容。

那么，有人可能会问，生成式人工智能的未来将如何发展?多模态将是人们在即将到来的GPT-4中看到的不可避免的进步之一，正如OpenAI公司首席执行官Sam Altman在他的演讲中提到的那样。与此同时，Altman还打破了该模型拥有100万亿个参数的传言。因此，人们都知道，这种人工智能模型越大并不总是代表着越好。