鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

来了！Kimi开源Moonlight-16B-A3B的MoE模型！！

发布于 2025-2-25 12:49

浏览

0收藏

言简意赅，发现月之暗面开源MoE模型，总参数量15.29B，激活参数2.24B，使用Muon优化器，在5.7T Tokens的训练数据下，拿到了很好的效果。

Github：https://github.com/MoonshotAI/Moonlight

HF：https://huggingface.co/moonshotai/Moonlight-16B-A3B

Paper：https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

效果如下：

来了！Kimi开源Moonlight-16B-A3B的MoE模型！！-AI.x社区

来了！Kimi开源Moonlight-16B-A3B的MoE模型！！-AI.x社区

比较 Muon 和 Adam 的扩展定律实验，发现Muon 的样本效率比 Adam 高 2 倍。

来了！Kimi开源Moonlight-16B-A3B的MoE模型！！-AI.x社区

Muon 优化器原理如下：

来了！Kimi开源Moonlight-16B-A3B的MoE模型！！-AI.x社区

同时，Moonlight-16B-A3B的模型架构与DeepSeek-V3一致。

HF快速使用：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "moonshotai/Moonlight-16B-A3B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    device_map="auto",
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

messages = [
    {"role": "system", "content": "You are a helpful assistant provided by Moonshot-AI."},
    {"role": "user", "content": "Is 123 a prime?"}
]
input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
generated_ids = model.generate(inputs=input_ids, max_new_tokens=500)
response = tokenizer.batch_decode(generated_ids)[0]
print(response)1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.

本文转载自NLP工作站，作者：刘聪NLP

标签

已于2025-2-25 13:57:45修改

赞

收藏

回复

举报

回复

相关推荐

Meta无限长文本大模型来了：参数仅7B，已开源

轻薄滴假象 • 1928浏览 • 0回复
大模型参数量都是7B，13B和65B等背后的原因是什么？

Syrupup • 1.1w浏览 • 0回复
Llama 3来了！首批开源 8B 和 70B两个版本，未来有望开源400B大模型！

AIGC最前线 • 1.1w浏览 • 0回复
大模型竞技场全面测评结果出炉：Llama3 70B成开源模型中最强王者！

AIGC最前线 • 5058浏览 • 0回复
仅需Llama3 1/17的训练成本，Snowflake开源128x3B MoE模型

轻薄滴假象 • 2041浏览 • 0回复
本地使用Groq Llama 3 70B的逐步指南

51CTO内容精选 • 2640浏览 • 0回复
开源的金融分析工具，Llama3-70B-Instruct模型编织开放的金融智能网

xuxiangda • 2383浏览 • 0回复
将端侧大模型进行到底-MiniCPM3-4B开源

NLP工作站 • 1910浏览 • 0回复
Mistral开源首个多模态大模型—Pixtral 12B

Aceryt • 1809浏览 • 0回复
Llama3.2开源：Meta发布1B和3B端侧模型、11B和90B多模态模型

NLP工作站 • 3402浏览 • 0回复
Mistral AI 发布革命性边缘模型 Ministral 3B 和8B：性能与隐私双料俱佳

Syrupup • 1609浏览 • 0回复
不只是更快：Ministral 3B和8B如何保障您的数据安全与隐私？

Halo咯咯 • 1260浏览 • 0回复
AMD 开源 AMD OLMo：完全开源的 1B 语言模型系列

Halo咯咯 • 1556浏览 • 0回复
Qwen开源强大、多样、实用的Qwen2.5-Coder系列（0.5B/1.5B/3B/7B/14B/32B）

Halo咯咯 • 2812浏览 • 0回复
Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）

老蛀虫 • 2930浏览 • 0回复
Pixtral Large：124B的最强开源多模态大模型

kede96 • 1848浏览 • 0回复
Infinigence AI 发布 Megrez-3B-Omni：3B 设备上开源多模态大语言模型 MLLM

Halo咯咯 • 1211浏览 • 0回复
达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA | 在线可玩

Crystalcxt • 1260浏览 • 0回复
Mistral-Small-24B-Instruct-2501：小身材，大智慧，AI界的“轻量级拳王”来了！

Halo咯咯 • 812浏览 • 0回复

LV.4

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

50

帖子

533

声望

5

粉丝

关注

最近发布

Gemini2.5 Pro测试，代码能力飙升，但多模态表格解析依旧不理想 4天前发布
文心一言4.5和X1免费，马上安排实测，来看看效果如何！ 2025-03-17 01:11:39发布

热门推荐

综述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 开源关键技术 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

90%的人都中招的低效陷阱！DeepSeek这招五分钟脑图法让你少熬10夜 1回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

算力租赁新趋势揭秘：如何高效利用云计算资源赋能未来 0回复

上一篇：满血DeepSeek-R1免费用！附带数据蒸馏的一些想法！

下一篇：探讨大模型预训练与微调之间的相互作用

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载