不要上来就大模型，从训练一个小模型开始原创

AI探索时代

发布于 2024-10-9 09:43

浏览

0收藏

“ 从训练一个小模型开始，大模型太复杂小模型刚刚好 ”

有句老话叫眼高手低，最近发现有些人就是眼高手低的现实案例，在什么都不懂的情况下就想搞大模型，小模型还看不上。

但其实最好的方式是从一个小模型开始，至于原因就是因为小模型相对比较简单一点，其次就是硬件要求较低，普通人能够玩的转。

从小模型开始

为什么建议大家从小模型开始，特别是一些开源小模型？

之所以建议大家刚开始以小模型为主，原因就是因为从技术原理来说，大模型和小模型没有本质上的区别；只不过大模型和小模型由于量变导致的质变，大模型的复杂度与小模型不能同日而语。

而从学习和使用的角度来说，大模型和小模型最大的差距就是对算力的需求；虽然从效果上来说，小模型远不如大模型，但学习和使用小模型能够让我们快速地摸清大模型技术的脉络和主要框架。

最重要的是小模型有很强的实操性，因为其算力成本低，甚至可以在个人电脑上进行部署和运维，而且使用个人电脑也可以对它们进行训练和微调，这样就大大降低了我们的学习难度。

以个人的经历来说，在刚开始学习大模型技术的时候，也是和很多人一样，要学就学技术最牛逼的；但等真的把大模型技术应用到工作之后才发现，原来大模型技术也没有想象中的那么复杂，但也没有想象中的那么简单。

在之前，一直以为训练和微调一个大模型，至少也要几千万条数据；但在工作中使用到的一些小模型，只需要几百，甚至几十条数据就可以完成微调任务，而且效果还不错。

当然，这里并不是说自己有多厉害，而是这些开源模型的作者很厉害；经过它们精心微调过的模型，只需要经过简单的调整就可以适配到相似的业务体系中。

而如果继续用大模型的思路，去训练和微调一个大模型，说句实话有几个企业能够支撑的了你的需求？

不要上来就大模型，从训练一个小模型开始-AI.x社区

不说大模型数据训练和微调所需要的资金，算力等问题，就大模型训练所需要的训练和微调数据的收集，就已经是一个很大的工程量了。

不知道大家有没有在抖音上看到过一个用四个月时间训练模型打蚊子的哥们，虽然并不知道他训练模型用了多大的数据量，但从他手动标注数据的情况下，他的数据量应该不是很大，而且他的操作好像都是在个人主机上完成的。

所以，训练和微调一个大模型很难，而且因为算力和资金的限制导致很多人无法进行真正的实操大模型；因此小模型是一个不错的选择，可以根据自己的喜好和需求，训练一个能够满足我们日常工作和生活的小模型其实也是一个挺不错的选择。

最重要的是只要我们发挥想象力，那它真的很好玩。

最近，因为工作原因导致比较忙，等后续有空闲时间，也准备自己训练和微调一个小模型来完成自己的喜好。到时候会全程分享需求，模型选择和训练的过程。

最重要的是，大模型技术的理论看了一大堆，可能很多地方依然不明不白，或者就是觉得自己都看懂了，实际上却什么都不懂；这时通过自己训练和微调模型，就能加深自己对大模型技术的体会与理解。

本文转载自公众号AI探索时代作者：DFires

原文链接：https://mp.weixin.qq.com/s/B16l-xnxXZUkBrG8Q3QojQ

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

大模型

小模型

相关推荐

手动实现一个扩散模型DDPM

pangguiyu • 4979浏览 • 0回复
小即是大？HuggingFace CEO预测小模型元年将至，将成为AI的下一个“大事件”

51CTO技术栈 • 2053浏览 • 0回复
一个小技巧，解锁ChatGPT「预测未来」？

duhorse • 1730浏览 • 0回复
如果老板让你基于大模型搭建一个系统，怎么选择一个适合自己任务的大模型？选择大模型需要考虑哪些问题？

AI探索时代 • 1684浏览 • 0回复
不要沉迷大模型的技术与理论，学习大模型的方法——从做一个小应用开始

AI探索时代 • 1856浏览 • 0回复
解读AI大模型，从了解token开始

ermulong • 2161浏览 • 0回复
一个关于学习大模型技术的方法论

AI探索时代 • 1299浏览 • 0回复
千万不要为了节约成本而选择小模型，特别是开源模型

AI探索时代 • 1299浏览 • 0回复
解读AI大模型，从了解token开始

ermulong • 1257浏览 • 0回复
怎么设计一个自己的大模型？设计一个大模型需要哪些能力？

AI探索时代 • 2407浏览 • 0回复
我训练了一个医疗多模态大模型帮家里老人看病

一起AI技术 • 2733浏览 • 0回复
讨论一个技术问题，大模型流式返回

AI探索时代 • 2594浏览 • 0回复
剖析BadGPT-40背后的真相：一个从GPT模型中移除护栏的模型

51CTO技术栈 • 1046浏览 • 0回复
如何从0开始构建一个通用AI Agent 智能体架构设计和实现？

玄姐聊AGI • 2154浏览 • 0回复
Reyes：一个从0到1开始训练的多模态大模型（技术报告）

大模型自然语言处理 • 1145浏览 • 0回复
怎么学习设计和训练一个大模型——也就是神经网络？

AI探索时代 • 1061浏览 • 0回复
机器学习|从0开始大模型之位置编码

周末程序猿 • 981浏览 • 0回复
机器学习|从0开始大模型之模型DPO训练

周末程序猿 • 1277浏览 • 0回复
从一个简单的神经网络模型开始

AI探索时代 • 876浏览 • 0回复

ceesoft

LV.3

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

帖子

308

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

不要上来就大模型，从训练一个小模型开始原创

从小模型开始

目录

51CTO

51CTO博客

51CTO学堂

不要上来就大模型，从训练一个小模型开始 原创

从小模型开始

目录

不要上来就大模型，从训练一个小模型开始原创