当你研究过了900个开源大模型项目后,你能学到什么? 原创
国外一美女程序员,在Github上通过检索gpt, llm, 和generative ai等关键字,从数十万检索结果中得到900个500+ star大模型开源项目。
她将统计结果放到了网站上,并定期更新star数等信息,同时提供了排序,分组,过滤等工具,我们也可以拿她的统计结果来进行分析。
https://huyenchip.com/llama-police
接下来让我们看看她通过分析这些开源项目学到了什么。
新的AI堆栈
基础设施包括训练大模型的硬件资源,训练大模型需要大量的显卡,一些企业考虑到数据安全,以及从长远成本考虑,选择搭建自己的计算中心。NVIDIA这几年靠着卖显卡可谓赚的盆满钵满,显卡价格一路飙升,即使这样仍是一卡难求。
模型开发工具包括像TensorFlow、PyTorch等AI框架,框架本身是开源免费的,但可以通过附加的云服务和硬件资源来赚钱。
应用软件指的是基于大模型的工具,一般通过闭源大模型有偿向用户提供访问接口,例如,openAI每个月都会向Plus用户收取会员费以及API调用费用。
随时间变化
图表显示,当chatGPT发布后,大模型的相关项目数量开始呈指数级增长。
这说明当一项颠覆性技术出现后,围绕此技术的各项发明会迅速增加。
就像当年的电力。
但大家会有疑问,大模型也就能画个图,写写小作文,说它是颠覆性技术,有点过了吧?
当年电力取代蒸汽机时,一开始人们对于电机也是持怀疑态度,因为它并没有提高生产效率。
后来人们才发现,是使用方法不当。
在传统工厂的中间会有一个蒸汽机,然后通过传动装置驱动各个模块,有了电机后只是简单的将蒸汽机替换成了电机。
本质上还是个集中式系统,依据木桶原理,整体效率仍然受限于最差的那个。
后来,工厂将电机应用于各个模块,这就是现代工厂流水线的雏形,这样的分布式系统大大提升了效率
电开始普及开来。
在应用层领域,项目最多的是code和bots。
code:当大模型在自然语言上取得成效后,人们开始将大模型应用于人造语言上,代码就是其中之一。
bots:相对被动式的一问一答,人们希望大模型能够自主思考,会使用工具,并且嫩进行决策。
information aggregation:科技的进步只是将人类从繁重的体力劳动中解放出来,人们要学的东西日益增多,大模型的概括能力让人具有一目十行的超能力。
专注Prompt工程的人,我认为是最聪明的人,因为它是性价比最高的提升大模型性能的方法。
前面我也通过两个例子证明了Prompt工程的超能力,仅仅通过在Prompt前面加个think step by step,就让大模型答对了9.11和9.3哪个大的问题,以及strawberry有多少个r的问题。
本文转载自公众号人工智能大讲堂
原文链接:https://mp.weixin.qq.com/s/QWGyhYHonybE2F6iomJb8w