
回复
首先准备好训练机器和数据,笔者采用了32节点910B NPU,300万网页训练数据。
环境安装,首先安装多模态训练框架ms-swift,安装torch-npu及deepspeed。
1)torch环境验证,在智算平台IDE验证环境是否正确,为了节省算力资源在单卡IDE上验证。
以下为正常响应
2)查看NPU状态,使用npu-smi info指令
以下为正常响应
本实践的训练任务为基于多模态大模型IternVL2的图生HTML代码能力训练。图生HTML代码能力即,输入一张网页截图,多模态模型能够生成相应的html代码。训练数据规模为300万,来源为huggingface的WebSight数据集、内部HTML训练集。由于多模态IternVL2视觉编码器较小占用显存小、无特殊算子,swift和torch-npu能兼容。