有了大模型的应用经验之后,再谈对大模型的理解 原创
“ 大模型的本质就是一段有输入和输出,并能使用某种算法达到某种目的得计算机程序 ”
在刚开始接触大模型时,根本不明白大模型是个什么玩意,看着别人给出的定义一脸懵逼。
不论是业内还是网上的文章,对大模型的普遍定义都是拥有巨大参数量和复杂计算的机器学习模型/深度学习模型。
从定义中能够看出哪些东西?
巨大参数量,复杂计算,机器/深度学习模型。
说句实话,对大部分人来说看了这玩意有什么用,有谁能用自己的话说明白什么是大模型。
所以,对刚开始学习大模型技术的人来说,即使告诉他大模型的作用,概念和实现原理,但对他来说还是七窍通了六窍,就剩下一窍不通。
为什么会出现这种情况?
原因就在于概念和定义是别人在事物的基础之上,加上自己的理解所下的定义;但你又不理解,因此看了别人的定义也不会真正明白;这就像道理大家都懂,但真正能理解道理的却没几个。
基于应用理解大模型
在刚开始学习大模型的时候,作者一直在尝试理解大模型的定义,原理,以及训练和微调的步骤和流程。
然后由于大模型需要庞大的算力支持,而自己又没有那么多钱来支撑自己购买GPU等算力工具;因此就觉得大模型好牛逼,好复杂。然后就觉得搞大模型好难啊,没有足够的资金和技术根本玩不转。
但经过这段时间从事大模型的应用开发,并随着时间的推移,遇到的事情也越来越多;然后对大模型的理解也更加的深入,这时才发现大模型原来没有想象中的那么复杂;当然也没想象中的那么简单。
首先,我们不要过度神话大模型,大模型并不是神仙,它还做不到无所不能;其次,大模型是一种技术,本质上是一个工具,其表现的是一种能力。
比如说,文字,视频,图片生成能力,也就是AIGC的能力,有些模型你只需要输入文字,它就可以根据你的要求生成一张图片或视频。
既然大模型是人工制造的智能体,既然人都无法做到无所不能;因此,大模型就更不可能做到无所不能了,所以不同的大模型就会像不同的人一样,擅长不同的领域。
比如有些大模型擅长内容生成,比如有些擅长生成古风的图片,有些擅长生成二次元图片等;而有些模型可能更擅长推理规划,还有的模型擅长回答问题等。
原因是什么?
原因就是不同的大模型采用不同的技术和训练数据,直接导致它们擅长不同的领域;就像人一样,不同的人选择不同的专业,擅长的东西也不一样。
这就是在之前的文章中所讲的大模型的能力问题——你对大模型认知的开始——大模型的能力问题;不同的大模型具有不同的能力。
ok现在我们知道了不同大模型拥有不同的能力,那怎么理解大模型的训练和微调? 大模型为什么需要训练?
严格来说大模型的训练叫做学习,大模型的实现原理就是模仿人类的学习能力,让机器能够通过学习的方式获得智能——这个过程叫做机器学习,而随着技术的发展,技术人员开始通过模仿人类的大脑神经元的方式来模拟人类的学习过程——这个过程叫做深度学习。
而关于学习,学习的方式多种多样,比如说去学校学习,自己自学等;大模型也是如此。
所谓的监督学习就是告诉大模型一些问题,然后再给它一份答案,让它自己去观察和总结其中的原理;而无监督学习就是直接扔给大模型一堆问题,然后让它自己看,自己学,然后去寻找其中的一些规律,然后下次再碰到类似的问题就知道怎么做了。
这就是大模型训练的过程,也是学习的过程;只不过这些过程都需要人类帮助机器去实现,而且为了实现这些过程还需要增加很多辅助性的工程,比如损失计算,通过损失函数来让大模型知道自己的学习效果。
ok ,那现在再来理解什么是大模型,以及大模型的参数?
所谓的大模型,其实就是一个计算机程序,然后这个程序能够读取数据,并使用某种方式来对这些数据进行分析,然后总结出相关的规律,并记录下来。
而其中分析数据的方式叫做算法,记录下来的规律叫做参数;而由于要在复杂的数据环境中找到规律,因此要记录很多规律点,所以才导致大模型拥有庞大的系统参数。
这也是为什么大模型被称为巨大参数量的机器学习模型,从本质上来说它只是一个机器学习模型或者说是深度学习模型;只不过它要学习复杂的数据,因此需要大量的参数进行标识,才导致它成为了一个巨大参数量的机器学习模型。
现在明白了什么是大模型,以及大模型的参数,那么如果让你实现一个模型应该怎么做?
首先,你要明白这个模型是干什么的,也就是说它应该具备哪些能力? 比如说画画的能力。
其次,既然知道了模型应该具备画画的能力,那怎么才能让它学会画画呢?
这时就需要去学习和了解计算机视觉相关的知识了,知道图像的原理,怎么生成,怎么保存,然后用那种算法让模型学习绘画的技巧等等。
这时,你再去学习大模型,甚至让你去开发一个模型,你就能做到有地放矢。
本文转载自公众号AI探索时代 作者:DFires
原文链接:https://mp.weixin.qq.com/s/G7mMw_d9qk5urtmiZB19hA