NLP工作站
LV.3
AIGC前沿知识分享&落地经验总结
声望 323
关注 0
粉丝 0
私信
主帖 38
回帖
今天给大家带来一篇探讨大模型预训练与微调之间关系的文章,主要通过微调预训练阶段各个checkpoint,来发现预训练本身或对下游微调有哪些影响。大模型在预训练过程中的性能如何变化?更多步数的预训练对下游微调有何影响?大模型微调学到了什么,又忘记了什么?Paper:https:arxiv.orgabs2408.06663由于目前开源模型中,开放全量checkpoints的模型较少,并且实验成本较大,以下分析结果主要基于OLMo1B模型(同时训练细节、预训练...
22h前 174浏览 0点赞 0回复 0收藏
言简意赅,发现月之暗面开源MoE模型,总参数量15.29B,激活参数2.24B,使用Muon优化器,在5.7TTokens的训练数据下,拿到了很好的效果。Github:https:github.comMoonshotAIMoonlightHF:https:huggingface.comoonshotaiMoonlight16BA3BPaper:https:github.comMoonshotAIMoonlightblobmasterMoonlight.pdf效果如下:比较Muon和Adam的扩展定律实验,发现Muon的样本效率比Adam高2倍。Muon优化器原理如下:同时,Moonlight16BA3B的...
8天前 372浏览 0点赞 0回复 0收藏
最近DeepSeekR1蒸馏太火了,昨天在群里跟群友们问白嫖R1接口的事情,想着多点搞免费额度蒸馏一波满血版DeepSeekR1,来做做试验。结果一个小伙伴,跟我讲,他们(无问芯穹)的满血版DeepSeekR1API是免费调用的,不仅如此,还有DeepSeekV3、Deepseek蒸馏版本模型R1DistillQwen32b也是免费的。当然,现在DeepSeek流量真的爆炸,公众号标题带DeepSeek流量都会更高一些,算是现象级模型了。在这里为春节期间同样努力奋斗,放出新模型...
2025-02-17 07:26:05 1048浏览 0点赞 0回复 0收藏
今天看到vLLM的朋友圈发布了DeepSeekR1的PP支持,立刻开始我的捣鼓之旅,假如我训练的超大MoE上线了,也得做好技术准备工作是不嘛。把踩坑经验给大家分享一下,希望能够相比于官方文档更白话一点。DistributedInferenceandServing:https:docs.vllm.aienlatestservingdistributedserving.htmlrunningvllmonmultiplenodes知乎游凯超说一定要让整个过程变得丝滑无比,我俩配合做了几个验证,现在应该只需要Step0和Step3就可以run起...
2025-02-06 15:33:59 3474浏览 0点赞 0回复 0收藏
大家好,我是刘聪NLP。就在今晚,Kimi发布了最新模型k1.5,先来看榜单效果,简直爆炸。在长推理上,k1.5在数学能力上,无论是纯文本还是视觉多模态上,都远超openai的o1模型;在codeforces与其持平,LiveCode上略差,但相比于QVQ和QWQ有较大的优势。在短推理上,k1.5的数学能力真实遥遥领先,无论是gpt4o还是claude3.5sonnet都远不如k1.5,尤其是在AIME榜单上,k1.5有60.8,而最高的deepseekv3只有39.2,堪称断层式碾压。这个应...
2025-01-22 13:33:53 1691浏览 0点赞 0回复 0收藏
大家好,我是刘聪NLP。前段时间一直都在尝试用多模态大模型进行落地应用,除了问答之外,那么最容易想到的就是文档解析了。一来多模态大模型本身就有强大的OCR功能,二来知识加工对于大模型落地来说也是重中之重,三来现在很多文档拆解的API或者项目,效果都没有那么理想吧,比如:夹杂公式的文本、复杂表格等。思路是不是很正,于是乎我就尝试用多模态大模型进行表格解析的任务了。结果就是:全是眼泪!痛,太痛了!今天此贴主...
2025-01-14 12:31:34 415浏览 0点赞 0回复 0收藏
今天给大家带来一篇知乎好友hadiii的一篇文章,汇总Llama3.1、DeepSeekV3、TÜLU3和Qwen2.5的后训练PostTraining技术。知乎:https:zhuanlan.zhihu.comp12862210431本文汇总Llama3.1,DeepSeekV3,TÜLU3,Qwen2.5报告的后训练部分,摘录其中核心的细节。大多涉及到数据,SFT,RL(各种RM训练,DPO,GRPO,RLVR等等)。1.Llama3.1paper:https:ai.meta.comresearchpublicationsthellama3herdofmodelsIllustrationoftheoverallpos...
2025-01-03 14:05:37 990浏览 0点赞 0回复 0收藏
大家好,我是刘聪NLP。没错,是的,对的,很棒,千问!QWQ之后,千问团队又开源了视觉推理大模型QVQ,是72B的呦。圣诞快乐,如期而至!HF:https:huggingface.coQwenQVQ72BPreview为啥是72B,可想而知,这个QVQ就是基于前一段时间开源的Qwen2VL72B模型上进一步训练得来的。有个7B的为啥没出QVQ7B,估计是参数来太少,做o1式推理效果不行,QWQ也是32B起步的,所以模型参数量很关键。在榜单上的效果,QVQ在MMMU是突破了70,并且整...
2024-12-25 12:12:27 986浏览 0点赞 0回复 0收藏
模型概述Megrez3BOmni是由无问芯穹研发的端侧全模态理解模型,基于无问大语言模型Megrez3BInstruct扩展,同时具备图片、文本、音频三种模态数据的理解分析能力,具体模型参数如下表所示。Megrez3BOmni在并未牺牲模型的文本处理能力的前提下,在三个模态上相较于同等参数模型,均取得较好的效果。图源:https:internvl.github.ioblog20241205InternVL2.5注意:下面的文本、图像、语音评测均基于https:huggingface.cospacesInfini...
2024-12-17 13:06:53 2014浏览 0点赞 0回复 0收藏
在看了OpenAI的直播,精读了字节论文,以及和知乎真中合欢激烈辩论后。我对RFT(ReinforcementFineTuning)也有了一些自己的认知,这篇文章给大家分享一下我的理解。首先给出我的结论:RFT并不是新的技术范式,而是PPO技术范式下的新应用范式,RFT相比于传统PPO的创新点是rulebasedrewardmodel。叠甲声明:RFT属于应用范式,RFT依赖的是rulebasedrewardmodel,这两个观点属于个人看法,如有不对,还望轻喷。至于“dozensofdata”...
2024-12-13 13:10:40 896浏览 0点赞 0回复 0收藏
晚上发现kimi也更新了,之前网上流传的kimi在数学上对标o1的模型,可以测试了。感觉有点迫于deepseek的压力了,本来应该是国内第一个的,长推理、类o1的模型,现在变成了第二个。模型版本叫k0math,在数学上的效果也是对标openaio1,官方也仅仅表示说在数学能力上较强。来自官方帖子https:mp.weixin.qq.comsg4DltigncX4sfaQ6Qn1zA但我非要测试看看在文本推理上的效果如何。测试界面是侧边栏的小眼镜图标,进来直接就可以测试,...
2024-11-27 15:42:21 726浏览 0点赞 0回复 0收藏
最近学强化的过程中,总是遇到“拒绝采样”这个概念,我尝试科普一下,争取用最大白话的方式让每个感兴趣的同学都理解其中思想。拒绝采样是LLM从统计学借鉴过来的一个概念。其实大家很早就接触过这个概念,每个刷过leetcode的同学大概率都遇到过这样一个问题:“如何用一枚骰子获得17的概率?”答案很简单:把骰子扔两次,获得6636种可能的结果,丢弃最后一个结果,剩下的35个结果平分成7份,对应的概率值便为17。使用这种思想...
2024-11-20 15:21:30 1182浏览 0点赞 0回复 0收藏
今天给大家带来一篇《简单实现一个ChatGPT驱动的游戏》文章,来自知乎九号(已授权)。今年四月份读了斯坦福GenerativeAgent的论文,觉得特别好玩,花几天时间实现了这个demo。后来拿着这个demo去参加hackathon,竟然拿了二等奖还帮我赢了1300多刀。最近提到这个demo,同事表示很有兴趣,于是仔细整理了一下,分享给大家。知乎:https:zhuanlan.zhihu.comp664009161Github:https:github.comliyucheng09ChatGPTAgent0.让LLM驱动...
2024-11-14 15:34:46 936浏览 0点赞 0回复 0收藏
今天突然发现腾讯开源混元大模型,十分震惊,腾讯也来挤开源赛道了,只能说大模型开源越来越繁华了。这次开源的主要是MoE模型,有Base模型和Instruct模型,总参数量389B,激活参数52B,支持最大上下文256K。Github:https:github.comTencentTencentHunyuanLargePaper:https:arxiv.orgpdf2411.02265HF:https:huggingface.cotencentTencentHunyuanLarge由于时间关系,还没仔细的阅读paper,扫了一眼指标,不知道为啥没跟Qwen2.572B...
2024-11-07 15:15:54 783浏览 0点赞 0回复 0收藏
写在前面前一阵子的开源和闭源之争炒的比较火热,之前一直想写点什么,由于太懒就没写,但是最近开源模型真的太火爆了,前有Grok1、Mistral8x22、Llama3,后有Yi1.5、DeepseekV2、Qwen1.5110B,开源模型现在真的卷到飞起。今天简单聊聊下面的几点内容,欢迎大家拍砖,给出不同看法:开源模型有哪些优势开源模型与闭源模型的差距会越大还是越小开源模型哪家强开源模型有哪些优势个人认为,开源大模型是让大模型行业卷起来的根源...
2024-11-04 11:05:42 866浏览 0点赞 0回复 0收藏
写在前面今天智谱开了GLM49B的模型,不是6B,是9B。一共开源了四个模型,Base版本模型(GLM49B)、Chat版本模型(GLM49BChat和GLM49BChat1M)和多模态模型(GLM4V9BChat)。其中,模型为多语言模型除了支持中文、英文之外,还支持日语,韩语,德语在内的26种语言;Chat系列模型支持网页浏览、代码执行、自定义工具调用(FunctionCall)的能力;GLM4V9B模型支持中英双语多轮对话能力。Github:https:github.comTHUDMGLM4HF:https:...
2024-10-29 12:26:46 1267浏览 0点赞 0回复 0收藏
以chatgpt为起始节点的大模型技术经过了两年左右的发展,大致沉淀了一些较为确定的研究领域。首先是基座大模型的研究,主要是国内外大厂集中大量财力、人力、算力进行大模型军备竞赛,企图将大模型的基础能力(包括推理能力)上限逐步提升到更高的层次。当然也有一些研究机构致力于改进transformer的架构或者提出其他更先进的基础模型结构,在性能或者效率上做文章,例如MOE,Mamba等;多模态模型,让大模型同时能够理解并生成...
2024-10-24 14:37:52 1550浏览 0点赞 0回复 0收藏
经过了数据收集、筛选、去重,马上就可以开始训练实验了。但是在实验之前,我们还需要先获取一个语言模型的基石:分词器(Tokenizer)。Tokenizer的作用是对一条文本数据进行切分、词表映射,得到这条文本的token序列。用开源Tokenizer还是自己训练Tokenizer可以自己训练,也可以从目前开源的模型中扒一个来用,用开源Tokenizer有几个点需要着重关注:压缩率:压缩率决定了文本向量化后的长度,压缩率越高,向量后数据越短,训...
2024-10-15 13:42:10 1424浏览 0点赞 0回复 0收藏
今天智谱开了GLM49B的模型,不是6B,是9B。一共开源了四个模型,Base版本模型(GLM49B)、Chat版本模型(GLM49BChat和GLM49BChat1M)和多模态模型(GLM4V9BChat)。其中,模型为多语言模型除了支持中文、英文之外,还支持日语,韩语,德语在内的26种语言;Chat系列模型支持网页浏览、代码执行、自定义工具调用(FunctionCall)的能力;GLM4V9B模型支持中英双语多轮对话能力。Github:https:github.comTHUDMGLM4HF:https:huggingf...
2024-09-30 16:01:43 2482浏览 0点赞 0回复 0收藏
早上起来发现,MetaAI又开源模型,文本模型开源了端侧小模型1B和3B模型,也是首次开源了多模态大模型11B和90B两个版本;同时还开源了一个LlamaStack项目。Blog:https:ai.meta.comblogllama32connect2024visionedgemobiledevicesHF:https:huggingface.cocollectionsmetallamallama3266f448ffc8c32f949b04c8cf其中Llama3.2多模态模型在图像识别和一系列视觉理解任务方面效果优于Claude3Haiku和GPT4omini。文本模型Llama3.23B模型...
2024-09-27 13:22:42 2548浏览 0点赞 0回复 0收藏
获得成就
已积累 1.2w 人气
获得 0 个点赞
获得 0 次收藏