如果认为 ChatGPT 所代表的潮流是 AIGC 的一部分,将是对这个浪潮的巨大误解。
ChatGPT 作为一款产品,展示了一个大语言模型(LLM)可能的应用场景,其中 AI 生成文本(AI Generated Text)的能力,尤其令人印象深刻。因为这一挤强心针,大家把对这个能力的热情,泛化到了 AI 生成图像,视频,音乐等各种内容,并且笼统的起了个大词儿的名字,叫做 AIGC。这里面不仅仅包含了 ChatGPT 这样的产品,也包括了 MidJourney 这样优秀的图像生成,以及 Stable Diffusion系列工具。至于视频,音乐等反而没有这么流行,但也都被包了进来。
按照一般逻辑,如果 AIGC 的范畴比 ChatGPT 更大,那么 AIGC 是不是ChatGPT 所代表的那些大家说不清道不明的能力的超集呢?
我的答案是否定的。
ChatGPT 这一种 LLM,不是打开了 AIGC 的大门,而是打开了自然语言用户界面(LUI, Language User Interface)的大门。LUI 是一个比 AIGC 大不知道几个数量级的世界。和 LUI 的大海相比,AIGC 就是一个小池塘。
人类和机器的接口,是相对稳定的,几十年才变一次的东西。而每次变化带来的改变都是深远的。就拿近代我们和电器的接口为例来看一下:
最早是 BUI(Button User Interface)。不用查了,这个词是我杜撰的,就是用按钮,旋钮,开关等做接口。但这个接口表达能力太弱了,根本无法表达循环,分支等。
然后就进入了 TUI(Text User Interface),就是命令行输入命令,计算机执行。Unix,DOS就是这一代。
在后面是 GUI (Graphic User Interface)。这一诞生于施乐公司,应用于苹果的 Macintosh,发扬于微软的 Windows 的方式,一下子统治了从 80 年代到现在的从电脑到手机到平板的所有用户界面。
而其中浏览器作为 GIUI (Graphic Internet User Interface),更是给互联网插上了翅膀,直接就引爆了一个时代。
而大语言模型出来了,人们终于可以不用 GUI 了,而直接是用自然语言和机器交互了。那么以前大家为什么喜欢用 GUI ,而不直接用语言呢?因为技术达不到呀。前一段语音识别的准确率才刚刚过关,至于理解语意,甚至可以完美的回答,还远远达不到这个能力。
现在 ChatGPT 以及百花争鸣的大模型出现了,这将在我们和计算机已经很方便的图形界面的基础上,进一步降低使用门槛。在已经很简单的事情上再进一步简单一点可以帮助的人群,远远大于一个复杂的东西降低很大的门槛(波音737的操作难度降低三个数量级大多数人还是不会开)。这一条改变,会和人类社会的每一件事情,每一次人机交互有关,会改变所有的行业,所有的人的生活。
对比 AIGC,虽然也有很多令人兴奋的进展,但是在这个技术发展史中,这是一个局部的进展。应用的也仅仅在内容生产这个领域,是一个局部的领域。它的发展,还需要更长时间的摸索。大语言模型的路径是否可以应用图像,视频,声音等领域还未知,下一个重大的突破在哪里还不明朗。所以,我认为 AIGC 概念大于实质,和 LLM 以及 LUI 不可同日而语。