后DeepSeek时代,大模型领域如何开工大吉

发布于 2025-2-5 17:14
浏览
0收藏

这个春节是DeepSeek的狂欢节,从R1发布到席卷全球仅不到两周,霸占140多个国家AppStore下载排行榜榜首。

今日节后第一天开工,几位朋友不约而同咨询我大模型未来走向,这里简单分享一下我的看法,抛砖引玉。

总结一句话:

大模型全栈都应围绕DeepSeek做生态

重要的事情通常得说三遍,但这件事只需说一遍,却无比重要,攸关资金、人力、时间等资源投入和业务创新与价值产出。

大模型全栈

这是笔者整理的大模型全栈:芯片 -> 编译器 -> 设备 -> 大模型 -> Agent智能体。

后DeepSeek时代,大模型领域如何开工大吉-AI.x社区

每个方面的基本概念这里不赘述,万事不决请DeepSeek,当一家公司把自己的名字做成动词,都是神一样的存在。

芯片与编译器

这块大部分读者很陌生,我多说几句。

笔者从事过几年DB2 SQL编译器与优化器的开发,C++代码跑在AIX、HPUX、Linux、Windows、Sun Solaris等系统之上。

接触过这些系统的读者都知道,这意味着SQL需要一次编译,却能够适配不同的芯片PowerPC、X86、X64、Sun Sparc,和不同的操作系统。

IBM DB2 做了芯片和操作系统层面的抽象,类似一个统一的虚拟的操作系统;SQL 被表征为有向无环图DAG,图中每个节点对应着不同的算子Operator。

SQL编译器与优化器就是将这些DAG和算子翻译成对操作系统和芯片的调用,并想尽一切办法让这些算子和DAG充分利用芯片和操作系统的资源(进程、线程调度,内存、磁盘与网络IO),即所谓的优化。

后DeepSeek时代,大模型领域如何开工大吉-AI.x社区图片

AI 的算法几乎一回事,Pytorch、TF是封装好了的DAG和算子,英伟达的CUDA作为编译器优化器以及芯片和操作系统层面的抽象。

后DeepSeek时代,大模型领域如何开工大吉-AI.x社区

CPU 与 GPU有着不同的设计目标,CPU侧重复杂逻辑控制,GPU侧重并行。PTX是CUDA中最接近芯片硬件的并行编程模型和指令集。

如果你能够做PTX级别的控制,意味着你可以自己编译和优化你特定的DAG和算子,也就意味着你无需CUDA的编译器和优化器就能够适配国产GPU或其他什么xPU。

这里是英伟达CUDA城墙咔咔碎裂的声音,DeepSeek崛起暴露Nvidia软肋。如果 DeekSeek成为开源第一,芯片厂家都知道自己该干什么从而加入这个生态。

设备AIPC与AI手机

自从有了ChatGPT大模型,PC和手机大厂都在大张旗鼓的推销自己的AIPC、AI手机。想法很好,可惜没有能打的端侧大模型。

量化缩小的大模型都损失了泛化能力,从而退化成了小模型,参考笔者的清熙其他文章。

而且没有联网的场景是如此的稀缺,以至于有人用南极科考站的队员想在去往南极的科考船上,用端侧大模型建议研究课题。可笑可怜。

现在有了能打的DeekSeek,但端侧仍然还是demo演示层面的能力。当用户可以随时联网用云端的全功能大模型能力的时候,端侧不应该聚焦无联网场景。

端侧的优势在于用户设备上的隐私数据,得踏实想清楚用到隐私数据的端侧功能,而且仅仅让端侧大模型充当意图理解的部分,这里可参考最赚钱的大模型应用正呼啸而来。

大模型本身

ChatGPT之后,国内群雄并起,两年厮杀的结果是 DeepSeek此次的异军突起。

国之幸事,世界幸事,全球科学家涌向DeepSeek,可能诞生一个超级世界模型,甚至一个DeepSeek为主干的智能互联网。

笔者可以感受到几家欢乐几家愁。不仅OpenAI、Cloude、Gemini迎来最强对手,如临大敌,国内的大模型公司同样前途未卜。

每家都有存在的意义和价值,然而,后DeepSeek时代,他们似乎都错过了全部正确答案。

笔者觉得,如果你有足够的资金、足够的人才、足够的耐心、足够的不同技术路线的信仰,你可以继续投入训练自己的大模型,但也要意识到,前路更崎岖更陡峭。

上述因素只要有一项不足,笔者觉得,打不过就加入可能是个最现实的方向:把你原来模型的优势蒸馏出来,注入DeepSeek,做垂直,做智能应用,做Model Store,做产业链服务。

后DeepSeek时代,大模型领域如何开工大吉-AI.x社区

企业可以部署DeepSeek到企业数据中心,把内部知识灌进去,让DeepSeek更懂企业自己,然后开放赋能全员,注意不要考核降本增效。

还需关注,大模型时期的应用,需要按照人类自然沟通方式的新范式重新思考和设计,注重文本、图像、音视频的可聊、可视、可听、可理解。

智能体Agent

做智能应用,还有一个绕不开的话题,智能体或Agent。著名的咨询机构都这么讲,尽管笔者觉得在大模型领域,他们也没有什么好的经验和洞察。

智能体通常是指以大模型理解为基础,提供附加记忆、规划、使用工具等能力,即所谓System2的能力,图解LLM-Agent大模型智能体。

然而,如果大模型的理解能力不足,所有这些都是在沙地上建塔。所以DeepSeek给了所有智能体生的希望。

下图是笔者常用来介绍智能体的用例,以人类客服话务员处理客户拨入的服务电话为场景。存在多个不同层次的需求处理和相应的大模型智商要求。

后DeepSeek时代,大模型领域如何开工大吉-AI.x社区

设计此类智能应用的时候,还得考量目前大模型最最致命的缺陷,DeepSeek也不例外,就是无处不在、无时不有的幻觉。

幻觉某种意义上是大模型的高维度思维优势,但不适合缺少足够判断力的小白用户,至少目前如此。

降低大模型幻觉的必由之路 笔者曾经理过思路,DeepSeek推理有了长足进步 GRPO 是DeepSeek魔法的源泉,然而幻觉并未消除,所以用户得有足够的判断力,从代码辅助到创意生成。

归根结底一句话,大模型仍是一个师傅领进门的技术,修行还要在个人,特别适合有经验的、或者爱学习钻研的用户。

免责声明disclaimer

上述粗鄙的判断都来自本人过去对AI和大模型的数学物理原理的探索和技术能力边界的推演,因而难免带着个人认知局限和偏见,有失偏颇。

关心大模型领域方向的读者,请批判参考,谨慎制定符合自身资源禀赋的大模型战略。战略本质上是把资源(资金、人才、时间)投到什么上去,不能不慎重。

后DeepSeek时代,大模型领域如何开工大吉-AI.x社区图片

上面这张图是笔者过去两年多围绕大模型思考的凝练,涉及到大模型的能力边界、未来走向、应用判断都来自这个图,目前为止还没有大的误判。

本文转载自 清熙​,作者: 王庆法

收藏
回复
举报
回复
相关推荐