最近,大家因为 ChatGPT 这个产品(以及后面的大语言模型 LLM)带来的能力,对 AI 的能力产生无法抑制的想象,尤其在访谈节目里面,开始了一场全民科幻小说命题作文大赛,把我们期待 AI 能有的能力一股脑的安在 ChatGPT 身上。输出的文字,有的甚至接近了 ChatGPT 的一本道的输出水平。
这是有害的,会让大众很快失望,因为大家所说的,完全不是 ChatGPT 现在有的,或者未来在技术路径上有可能增加的功能。
人工智能的层次
整个人工智能的领域非常广泛,有很多层次,包括 ChatGPT 所在的大语言模型领域, MidJourney 和 Stable Diffusion 所在的从文字生成图像的领域。当然,也还有传统的语音识别,文字识别,面容识别等领域。在过去的很多年里面,每个领域发展的速度是不一样的。
有的领域,在过去的四五十年,一直在努力的攻坚,却一直没有办法突破,或者仅仅局部突破。比如 ChatGPT 所在的自然语言识别领域,在 GPT-3 和 ChatGPT 用了将近十年的时间取得突破之前,一直属于人工智能里面偏难的问题,经过十年黑暗中的摸索,从 2020 年开始,出现了一个质的飞跃。但我需要知道他是一个语言模型,但不能泛化为人工智能领域普遍的突破了。而更多的系统,依然在艰难的等待突破。
我听到很多的访谈,大家举例说 ChatGPT 可以用来画画,可以生成视频,可以做 DNA 序列的预测,可以直接诊断开处方。 ChatGPT 使得这些场景有一个非常好的用户界面,可以通过让跟机器人聊天就可以做到上面的一些事情了,比如跟我们的阿旺机器人聊天就可以调用 Stable Diffusion 画画,可以调用天气、股票、所有引擎、数字人等等模型,输出视频,音频,回答实时的信息,可以为每个企业都配一个机器人,基于企业给的信息回答用户或者员工的问题,但这些能力没有一个是 ChatGPT 本身的能力。(后台回复「ChatGPT」 体验)
ChatGPT 的能力
ChatGPT 只解决大语言模型可以解决的问题,虽然这些能力包括语言理解和输出,简单的逻辑以及事实性知识的支持,还有无数我们正在探索的令人惊叹的功能,但它本身不处理图像,不处理视频,不处理音频,需要无数的创业公司把这些媒体转化为语言模型再调用 ChatGPT 的功能。
Bing + ChatGPT 就是搜索的结果由 ChatGPT 输出(而 Bing 负责搜索,而 ChatGPT 不负责),我们还有很多专家系统,负责看病,决策,还有 ERP 系统负责查库存等等。这些都是 ChatGPT 可以串起来的系统,并且从中得到答案以后,交给 ChatGPT 做输出。但是,他们不是 ChatGPT 本身。
ChatGPT 是一个很好的粘合剂,是项链里的那一根线,穿起了珍珠,但千万不要泛化它的能力,以为它是整个项链。
ChatGPT 相关的是当下最好的创业方向
同时,也不能因为 ChatGPT 带来的几百倍的效率提升而爱屋及乌的认为所有的 AI 领域都有了突破。没有高速发展的领域,比如除了 ChatGPT,或者 Stable Diffusion 等以外的 AI 领域,可以暂时不要进入。
大多数的公司,即便如 Google 这样的技术公司,也只能在一项技术被迅速突破的时候大规模跟进,能够有足够的运气和坚持开创一个领域,太稀有了。
不是外部技术变量的巨变,我们很难回答「为什么以前没有这样的公司」这个问题,所有的答案只能直接或者间接的指向「别人都傻,只有我们这个团队聪明」。而只有当技术巨变的时候,这个答案才清晰易懂,并且让我们所有人信服:「因为以前没有这样的技术」。所以受 ChatGPT 的鼓舞而跳进 AI 领域非 ChatGPT/Stable Diffusion等突破性发展的领域,或许就容易把自己的生命耗费在等待这个领域的突破的事情上。
注:今天晚上,我会和我最喜欢的播客主播,Sarah,一起录一档节目,叫做《大白话聊 ChatGPT》。不知道大家还有没有印象,我和 Sarah 以前合作了一档广为流传的《大白话聊 Web3:终将到来的时代,会如我们所想吗?》,我非常期待和 Sarah 一起聊 ChatGPT 这个话题。大家可以在下面预约。(这次直播很特别,我们的主要目的是录播客,同时直播「我们录播客的过程」,以播客最终效果优先,所以我不会有太多的互动。如果对于录制播客的过程感兴趣的同学也可以进来串门)。