DeepSeek 爆了，普通人如何3小时完全从0训练自己的大模型原创

发布于 2025-2-11 10:24

浏览

0收藏

这个春节，DeepSeek 实在太火了，无须赘述。

今天要向大家推荐一个极具实用价值的开源项目——MiniMind。这个项目使得我们只需利用普通电脑，就能在短短3小时内打造出一个精简版的 DeepSeek！

为了避免误解，特别说明一下，“最快3小时”是基于你的硬件配置优于我本人的情况下。具体的硬件规格要求将在下文中详细说明。

1、为什么这个项目这么特别？

市场上的大语言模型（LLM）通常拥有上百亿参数，其训练成本相当高昂。对于想要学习和研究的人来说，这样的硬件要求往往成为一道难以逾越的障碍。然而，MiniMind 凭借其巧妙的设计，大幅缩减了模型参数，使得个人开发者也有能力自行训练 AI 大模型！

MiniMind 的最小版本仅有 26MB（大约是 GPT-3的1/7000），这意味着即便是普通的游戏显卡也能轻松驾驭。该项目提供了全面的训练步骤：

第一、基础语言能力训练（预训练阶段）

第二、对话能力训练（指令微调阶段）

第三、快速适应新任务（LoRA 微调技术）

第四、优化回答质量（DPO 偏好对齐方法）

2、实际使用场景

场景一、定制化 AI 助手打造

您能够培养出专注于特定领域的 AI 助手，例如：

客服机器人：基于企业产品知识库进行训练。
教育辅导机器人：专注于特定学科的习题解答和讲解。
行业专家助手：为特定行业提供专业的咨询服务。

场景二、技术探索与学术研究

深入理解大型语言模型的工作机制。
实际操作不同的训练技术。
探索模型的优化策略和改进方法。

场景三、产品概念验证

快速实现 AI 产品想法的原型开发。
在不同应用场景中测试产品的性能。
收集用户反馈，以促进产品的持续迭代和优化。

3、技术架构亮点剖析

第一、精简架构设计

基于 Transformer 的解码器单结构（Decoder-Only）。
利用 RMSNorm 进行预标准化，以增强模型表现。
引入旋转位置编码技术，有效处理长篇文本。

第二、创新性地推出专家混合模型版本（MoE）。

提供4个26MB的混合专家模型，以实现能力的提升。
在保持低计算资源消耗的同时，实现专家间的有效分工。

第三、灵活多样的部署选择

支持在单卡或多卡上进行训练。
与主流深度学习框架无缝兼容。
提供便捷的网页交互界面。

4、定制自己的大模型上手有多简单？

第一、克隆项目代码

git clone https://github.com/jingyaogong/minimind.git
cd minimind1.
2.

第二、环境安装

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple


# 测试torch是否可用cuda
import torch
print(torch.cuda.is_available())1.
2.
3.
4.
5.
6.

如果不可用，请自行去 torch_stable 下载 whl 文件安装。参考链接如下：

https://blog.csdn.net/weixin_45456738/article/details/141029610

第三、环境配置

CPU: Intel(R) Core(TM) i9-10980XE CPU @ 3.00GHz
内存：128 GB
显卡：NVIDIA GeForce RTX 3090(24GB) * 2
环境：python 3.9 + Torch 2.1.2 + DDP单机多卡训练1.
2.
3.
4.

Ubuntu == 20.04
Python == 3.9
Pytorch == 2.1.2
CUDA == 12.2
requirements.txt（本项目环境依赖）

第四、自己的训练数据集

下载数据集放到./dataset目录下
python data_process.py 命令处理数据集，例如 pretrain 数据提前进行 token-encoder、sft 数据集抽离 qa 到 csv 文件
在./model/LMConfig.py 中调整 model 的参数配置

这里仅需调整 dim 和 n_layers 和 use_moe 参数，分别是(512+8)或(768+16)，对应于minimind-v1-small和minimind-v1

python 1-pretrain.py 执行预训练，得到pretrain_*.pth 作为预训练的输出权重
python 3-full_sft.py 执行指令微调，得到full_sft_*.pth 作为指令微调的输出权重
python 4-lora_sft.py 执行 lora 微调（非必须）
python 5-dpo_train.py 执行 DPO 人类偏好强化学习对齐（非必须）

5、总结

MiniMind 项目正在快速发展，目前已支持：

文本对话：流畅的中英文交互
视觉理解：可以理解和描述图像
知识更新：持续优化训练数据
性能提升：不断改进模型结构

MiniMind 降低了 AI 开发的门槛，让更多人能够参与到大语言模型的探索中来。无论你是：

想入门 AI 的开发者
需要定制化 AI 助手的企业
对语言模型感兴趣的研究者

这个项目都能帮你快速起步，并在实践中不断成长。项目完全开源，想要了解更多 MiniMind 项目信息的读者可以查看项目 Github 地址：

https://github.com/jingyaogong/minimind

本文转载自公众号玄姐聊AGI 作者：玄姐

原文链接：https://mp.weixin.qq.com/s/xbo5bEC6DgwJr0OhSFiOsA

标签

DeepSeek

大模型

已于2025-2-11 10:25:30修改

相关推荐

最强大模型 Claude 3 完全解读

开发者阿橙 • 5494浏览 • 0回复
OpenAI曾转录100万小时视频数据，训练GPT-4

Aceryt • 1994浏览 • 0回复
0样本视频编辑模型，普通人秒变钢铁侠

Aceryt • 1988浏览 • 0回复
训练大模型时，显存都哪去了？

鱼虫子 • 2552浏览 • 0回复
DeepSeek的V3，爆火了

51CTO技术栈 • 4927浏览 • 0回复
Reyes：一个从0到1开始训练的多模态大模型（技术报告）

大模型自然语言处理 • 1614浏览 • 0回复
机器学习|从0开始大模型之位置编码

周末程序猿 • 1385浏览 • 0回复
机器学习|从0开始大模型之模型DPO训练

周末程序猿 • 1685浏览 • 0回复
带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈

玄姐聊AGI • 6119浏览 • 1回复
机器学习 | 从0开发大模型之DeepSeek的GRPO

周末程序猿 • 1695浏览 • 0回复
DeepSeek爆火：普通人跨越AI提效终局的10倍进化指南

ermulong • 1483浏览 • 0回复
机器学习 | 从0开发大模型-译llama3-from-scratch

周末程序猿 • 1523浏览 • 0回复
机器学习|从0开发大模型之复现DeepSeek的aha moment

周末程序猿 • 1445浏览 • 0回复
DeepSeek级AI？训练自己的推理模型仅需七个步骤

51CTO内容精选 • 1418浏览 • 0回复
Manus：这个堪比 DeepSeek 的核弹，如何让普通人也能指挥“数字员工”？

wsp_ping • 1210浏览 • 0回复
从0到1：AI如何“复制”明星，唱响奇妙旋律

InfonityAI智推星 • 921浏览 • 0回复
从FP8到安全张量，DeepSeek‑V3‑0324 重塑大模型生态的秘密武器

xuxiangda • 1079浏览 • 0回复
我测试了智谱新发布的AI智能体：不仅会思考还会自己干活，用它15分钟=人工2小时（附安装教程）

Bx玩AI • 1045浏览 • 0回复
Deepseek新论文！如何让AI自己学会更公平地打分？

石映飞云 • 842浏览 • 0回复

算家计算

LV.3

定期分享AI资讯【做AI先行者，选算家云平台】

觉得TA不错？点个关注精彩不错过

帖子

287

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

DeepSeek 爆了，普通人如何3小时完全从0训练自己的大模型原创

1、为什么这个项目这么特别？

2、实际使用场景

3、技术架构亮点剖析

4、定制自己的大模型上手有多简单？

5、总结

目录

51CTO

51CTO博客

51CTO学堂

DeepSeek 爆了，普通人如何3小时完全从0训练自己的大模型 原创

1、为什么这个项目这么特别？

2、实际使用场景

3、技术架构亮点剖析

4、定制自己的大模型上手有多简单？

5、总结

目录

DeepSeek 爆了，普通人如何3小时完全从0训练自己的大模型原创