学习大模型开发,需要具备人工智能或深度学习理论基础吗? 原创

发布于 2024-10-10 09:23
浏览
0收藏

“ 学以致用,问题才是学习的真正驱动力 ”

最近发表了几篇关于学习人工智能技术的文章,然后就有人问没有深度学习的基础可以学习人工智能吗?

答案是肯定的,学习人工智能技术并不一定非要懂得深度学习,虽然深度学习是大模型的基础。

怎么学习大模型?

很多人学习大模型技术,第一步就卡在了入门上,也就是说不知道应该怎么学习人工智能技术。

可能在很多人的认知中,学习人工智能就要学习机器学习和深度学习,面对着复杂的机器学习模型以及复杂的算法实现,直接导致很多人的人工智能学习之路自此中断。

其实大家完全没必要把人工智能或者说大模型想的那么复杂,作者在之前的文章中曾不只一次的说过,技术的本质就是一个工具;而会不会制造和使用工具是人和动物的根本区别。

既然大模型技术是一种工具,我们即使不会制造大模型这个工具;但我们可以学会使用这个工具。所以,对不懂机器学习和深度学习的人来说,学习大模型技术最好也是最简单的方式就是先学会使用大模型。

学习使用大模型也有两种情况,一种是完全不懂技术的人,只需要学会使用基于大模型作为底座开发的产品,比如一些音视频生成工具等。

第二,就是懂技术的人,他们有一定的编程基础,这时他们可以学习在大模型之上构建上层应用,也就是给不懂技术的人使用的工具。

第一种没什么好说的,不论是人工智能还是微信,淘宝,拼多多对第一种人来说没什么区别。

我们今天主要讨论的是学习大模型技术的人,当然,第二种情况下也会有那种特别喜欢大模型技术本身的人,比如学习机器学习模型,算法,架构等等;这种就不在我们今天讨论的范围。

学习大模型开发,需要具备人工智能或深度学习理论基础吗?-AI.x社区

为什么我说学习大模型可以不懂的机器学习和深度学习?

原因就是学习的方式有多种,在学生时代学校采用填鸭式的教学方式,上来就给我们讲高大上的理论还一些不知所以的概念。

因此,也有人开玩笑说我只需要上街买个菜,需要知道什么是牛顿莱布尼茨公式吗? 

而我们很多人学习人工智能或者学习大模型技术的时候也是一样,他们根本不知道什么是人工智能,也不知道什么是大模型;就知道这玩意现在比较火,说起来比较牛逼,然后就去学。

但你问他为什么要学,他们又说不出个一二三。

所以,很多人学习大模型的时候听了一堆概念,看了一堆书,然后也不知道到底能干什么,为什么这么干。

因此,踏入社会之后我们就要学会另一种学习方式,那就是从问题出发,从应用出发,在问题中寻找答案。

先不要去学习哪些高大上的理论和一些乱七八糟的概念,我们首先要做的就是先学会大模型的使用,比如让它帮我们生成一张图片,回答一个问题。

这时问题就来了,大模型为什么可以生成图片,为什么可以回答问题?

然后去思考它是怎么做到的,以及它为什么能做到。

这时,你带着问题去寻找答案,你就会发现原来看不懂的概念现在好像有点懂了;之所以可以生成图片和回答问题,是因为现在的模型叫生成式模型,使用特殊的架构实现的一种能够通过预训练习得知识的能力。

然后你就又发现了一个问题,什么是预训练? 以及预训练是怎么做的?

这时你就会去学习大模型的预训练流程,选择模型,数据清洗,数据训练,正向传播,反向传播,损失计算等等。

这时的你可能对大模型技术就有了一个大致的认识,虽然你并不知道大模型到底是怎么实现的,但你知道通过预训练流程就可以打造一款适合某个场景的模型。

学习大模型开发,需要具备人工智能或深度学习理论基础吗?-AI.x社区

这时你就开始思考怎么才能训练一个能解决某个问题的模型? 

怎么选择合适的模型,从哪里找到这些模型,这些模型需要什么样的以及什么格式的数据,预训练需要多少算力,需不需要分布式并行计算等等。

这时你就会发现,原来训练一个模型这么复杂,这么困难;那该怎么办呢?

这时你又看到了微调,通过少量的数据就可以实现把类似功能的预训练模型调整成适合你指定任务的模型。

这时你就会发现,原来训练和微调在技术上没有本质的区别;唯一的区别就是预训练模型的参数是经过训练的,而微调只需要对部分参数进行调整即可。如果是全量微调,那就和训练没什么本质的区别了。

这时,你已经明白了大模型的基本运作原理,以及训练和微调的方法;这时你可能会想我也自己设计一个大模型出来给别人用?

这时你通过一通查资料发现想实现这个目标确实比较复杂,不但要深入了解各种机器学习的理论和算法,还是懂得足够的数学基础。

所以,这时你可能会转变方向,先去基于大模型开发一款工具或应用;比如AIGC或知识库等。

然后,你就会思考怎么用大模型开发应用呢?

是自己训练或微调一个大模型,还是使用第三方的大模型?如果使用三方大模型只需要懂得接口调用,甚至不需要知道一点人工智能的东西就可以开发,技术要求低,成本也低。

而如果自己使用其它的开源模型,那么自己怎么部署,怎么动态扩容等等。

等你真正决定自己部署大模型的时候,你才发现原来自己独立运维部署大模型是如此复杂的一个工程,不但要考虑模型的选择,还要负责大模型的集群部署和扩容;而如此庞大的系统工程依靠人力是无法完成的,因此自动化运维就成了必不可少的东西。

最终,你经过一通乱七八糟的操作,最终成功部署了大模型;这时,你又发现模型的生成效果好像并不是太好,使用了现有的训练和微调方式都没办法解决这个问题。

学习大模型开发,需要具备人工智能或深度学习理论基础吗?-AI.x社区

这时,你就需要开始真正的研究大模型的底层实现,使用了什么算法,什么架构,可能是什么问题导致大模型表现不好等等。

或者说,你在使用大模型的过程中,突然发现一些之前没有注意到的好玩的地方,比如大模型的幻觉问题,一本正经的胡说八道。

而产生这个问题的根本原因是什么? 

这时,你就会发现你自己好像懂了什么是大模型;但又好像什么都不懂;感觉自己什么东西都知道一点,但又没办法说个所以然。

为什么会产生上面的情况,原因就是大模型是一个复杂的系统性工程,没有人上来就能把它说个一二三;大家都是在不断学习,不断使用的过程中,发现问题,改正问题,在问题中成长。

所以说,你没有机器学习和深度学习的基础,你会有上面的各种疑问;而你有机器学习和深度学习的基础,你同样会有上面的疑问。

学习最重要的是学以致用,不论是你先从应用学起,还是从底层理论学期,你可以根据自己的喜好,选择适合自己的学习方式;没有人规定有了深度学习技术就一定能学会大模型技术;也没有人规定,没有深度学习技术的基础就学不会大模型技术。


本文转载自公众号AI探索时代 作者:DFires

原文链接:​​https://mp.weixin.qq.com/s/uulHC8JyCfTroxhI1FU-Bg​​​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
标签
收藏
回复
举报
回复
相关推荐