51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
WOT技术大会
IT证书
公众号矩阵
移动端
短视频
免费课程
课程排行
直播课
软考学堂
全部课程
厂商认证
IT技术
25年5月软考
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
我的关注
全部帖子
默认
发布时间
热度
原创
精华
热门标签
AI
模型
DeepSeek
外网夸爆DeepSeek开源周!今天一口气开源3个重磅!压轴戏期待拉满,R2、V4、被提名
原创
社区头条
好家伙!DeepSeek是真的OpenAI啊!在第四天的开源日中,竟然一口气放出三个重磅的优化并行策略代码库,而且又是V3R1模型中的干货:DualPipe:一种优化的双向流水线并行算法,旨在优化V3R1模型训练中的计算和通信重叠。稍微解释一下,通常在分布式训练中,计算和通信要有两次耗时,而DualPipe通过设计并行算法来处理这两者之间的重叠,可谓是训练界的时间管理大师!https:github.comdeepseekaiDualPipeEPLB(ExpertParall...
51CTO技术栈
0回复
455浏览
DeepSeek
开源
AI
AI长视频生成终现"免费午餐"!RIFLEx颠覆性发现:调控频率就能突破时长魔咒
论文链接:https:arxiv.orgpdf2502.15894项目链接:https:riflexvideo.github.io亮点直击通过分析现有方法的失败模式并揭示位置嵌入中各个频率成分的作用,提供了对视频长度外推的全面理解。提出了RIFLEx,一种简单而有效的解决方案,通过适当降低内在频率来减少重复,且无需任何额外修改。RIFLEx提供了一种真正的“免费午餐”——在最先进的视频扩散Transformer上以完全无需训练的方式实现高质量的2倍外推。此外,通过少量微调...
angel
0回复
423浏览
训练
模型
生成
详解MMoE 模型:多任务学习中的专家混合建模与实践【附代码】
社区头条
MMOE模型由谷歌研究团队于2018年在论文《ModelingTaskRelationshipsinMultitaskLearningwithMultigateMixtureofExperts》中提出,是一种新颖的多任务学习框架,广泛应用于推荐系统中。本文从技术背景、演化过程、计算原理、关键问题解析以及基于PyTorch的代码实现方面对MMoE架构进行深入探究。1.技术背景(1)多任务学习的本质是共享表示以及相关任务的相互影响,多任务学习模型并不总是在所有任务上都优于相应的单任务模型。(...
南夏的算法驿站
0回复
414浏览
MMoE
模型
技术
苹果开源通用视觉模型:创新训练方法,超1000颗星
苹果的研究人员开源了最新通用多模态视觉模型AIMv2,有300M、600M、1.2B和2.7B四种参数,整体能耗很低,可以适用于手机、PC等不同类型的设备。与传统视觉模型不同的是,AIMV2使用了一种创新的多模态自回归预训练方法,将视觉与文本信息深度融合,为视觉模型领域带来了新的技术突破。简单来说,就是AIMV2不再局限于仅处理视觉信息的传统模式,而是将图像和文本整合为统一的序列进行预训练。在这个过程中,图像被划分为一系列不重...
Aceryt
0回复
294浏览
数据
训练
模型
DeepSeek开源优化并行策略,提升训练和通信效率
社区头条
今早10点,DeepSeek开启了第四天技术分享,开源了三个优化并行策略。分别是DualPipe,一种用于V3R1训练中计算与通信重叠的双向流水线并行算法;EPLB,针对V3R1的专家并行负载平衡器;用于分析V3R1中的计算通信重叠。开源地址:https:github.comdeepseekaiDualPipehttps:github.comdeepseekaieplbhttps:github.comdeepseekaiprofiledataDualPipe是一种创新的双向流水线并行算法,曾首次在V3版本中使用过。与传统...
Aceryt
0回复
467浏览
模型
训练
AI
循环变换器中的潜在思维:深度与参数效率的权衡研究
研究背景与创新点深度学习模型,尤其是大型语言模型(LLMs)在推理任务上的表现令人瞩目。传统观点认为,模型参数量是决定推理能力的主要因素。然而,GoogleResearch团队的这项研究《推理潜在思维:循环变换器的力量》提出了一个更为大胆的观点:许多推理问题主要需要的是足够的深度,而非海量参数。该研究探索了循环变换器(LoopedTransformers)在推理任务中的应用潜力,并揭示了模型架构与推理能力之间的深层联系。本文的核...
顿数AI
0回复
286浏览
参数
效率
语言模型
COSMOS:结合特征子空间分解的混合自适应优化器用于大型语言模型的内存高效训练
摘要大型语言模型(LLMs)在各个领域都取得了显著的成功,然而,由于它们所处的复杂和高维损失景观,其优化仍然是一个重大挑战。虽然自适应优化器如AdamW被广泛使用,但它们存在关键限制,包括无法捕捉坐标之间的相互依赖性以及高内存消耗。本文分析了COSMOS优化器,这是一种新颖的混合优化器,它利用梯度矩阵中特征子空间的重要性变化来实现内存效率,同时不牺牲优化性能。COSMOS将SOAP应用于主特征子空间,该子空间捕捉了主要...
顿数AI
0回复
369浏览
COSMOS
大型语言
模型
X-IL:系统化探索模仿学习策略的设计空间
摘要模仿学习(ImitationLearning,IL)作为一种通过模仿示范来教授智能体复杂行为的范式,已经在机器人学习领域展现出巨大潜力。然而,随着机器学习技术的快速发展,设计现代模仿学习策略需要在特征编码、架构、策略表示等方面做出众多决策,这些选择构成了一个庞大且尚未被充分探索的设计空间。本文详细分析了XIL框架,这是一个开源的模块化框架,旨在系统地探索模仿学习策略的设计空间。通过对XIL的架构设计、核心组件以及在L...
顿数AI
0回复
381浏览
X-IL
系统化
学习策略
从PPO到GRPO:算力减半的大模型推理能力训练革命
原创
精华
热门内容榜
• TOP5
编者按:还在为训练推理模型烧光算力预算而发愁?当开源小模型遇上数学题就“智商掉线”,如何低成本突破性能瓶颈?传统RLHF动辄百万级算力投入,让多少团队在强化学习门前望而却步;格式混乱、逻辑断层、答案偏差——这些模型推理的顽疾是否也在阻碍你的AI产品落地?本文深入解析DeepSeek团队突破性的GRPO(群组相对策略优化)技术,这项创新将强化学习所需计算资源几乎减半,甚至可以结合LoRA在普通消费级GPU上进行模型训练。...
Baihai_IDP
0回复
878浏览
强化学习
推理模型
AI
DeepSeek如何选 满血版vs蒸馏版 哪个一体机性价比更高
原创
社区头条
热门内容榜
• TOP1
选择DeepSeek时,是选满血版还是蒸馏版,需要根据具体的业务需求、硬件资源、成本预算以及应用场景来综合评估。以下是详细的对比和建议:1.性能与精度满血版参数规模:基于671B参数(如R1V3模型),支持超长上下文理解,功能覆盖复杂推理、代码生成(LeetCode难题通过率92%)、科研论文框架生成等。硬件要求:需专业服务器(如双H100GPU+1TB内存或8卡A100集群),适合企业级部署。应用场景:适用于自动驾驶、金融风控、医疗影像...
数字化助推器
0回复
1442浏览
DeepSeek
满血版
蒸馏版
2025年2月五大优秀大语言模型
原创
社区头条
热门内容榜
• 最近上榜
大语言模型(LLMs)是经过海量文本(有时包含其他数据)训练的高级人工智能系统,能够理解和生成类人语言。它们使用具有数十亿参数的深度神经网络架构(通常为Transformer架构),以连贯且具备上下文感知的方式预测和生成文本。如今的LLM不仅能进行对话、编写代码、分析图像,还能通过训练数据中学习到的模式完成更多复杂任务。某些LLM尤其因突破AI能力边界而脱颖而出:GPT4o、Claude3.5Sonnet、Gemini2.0Flash、Grok3和DeepSee...
51CTO内容精选
0回复
633浏览
大语言模型
LLMs
GPT-4o
DeepSeek R2要提前发布!这是有关R2的几个传闻:100%国产算力部署!能耗降低25%,多模态模型!
原创
社区头条
热门内容榜
• 最近上榜
DeepSeek今天有两个大新闻:一个是开源了自家用于助力V3R1模型训练与推理的一个FP8通用矩阵乘法(GEMM)加速库,这一块相信不少业内人士会感兴趣,据悉性能高达1350+TFLOPS,进一步揭秘了为什么现在的DeepSeek可以吐字这么流畅,训练和计算成本为什么如此低廉。不过更为让人震惊的,相信还是第二个:DeepSeek原定于要5月初发布的DeepSeekR2,现在正在争取提前甚至尽可能早的发布!这一提前发布R2的消息,是路透社当地时间周二发布...
51CTO技术栈
0回复
746浏览
DeepSeek R2
多模态
模型
杀疯了!DeepSeek开源第3弹:DeepGEMM炸场,算力焦虑终结者?
家人们谁懂啊!DeepSeek连续两天向AI圈扔出炸弹后,今天又甩出一个王炸——DeepGEMM!这玩意儿简直可以称作一键榨干显卡性能,让算法速度原地芜湖起飞🛫。本摸鱼小编带你们盘一盘这个让码农狂喜、资本沉默的「算力永动机」!一、啥是DeepGEMM?先来给大家介绍一下,DeepGEMM是一款专注于FP8高效通用矩阵乘法(GEMM)的库。咱都知道,矩阵乘法在深度学习里那可是家常便饭,就像是盖房子时的砖头,少了它啥都干不成。而De...
智驻未来
0回复
398浏览
DeepSeek
DeepGEMM
算力
白嫖资源训练 DeepSeek R1 推理模型
精华
社区头条
热门内容榜
• 最近上榜
DeepSeek颠覆了AI领域,通过推出一系列全新高级推理模型挑战OpenAI的主导地位。最棒的是?这些模型完全免费使用,没有任何限制,每个人都可以使用。您可以在下面观看有关如何微调DeepSeek的视频教程。在本教程中,我们将在HuggingFace的医疗思维链数据集上对模型进行微调,微调的基础模型为DeepSeekR1DistillLlama8B。这个精简的DeepSeekR1模型是通过在使用DeepSeekR1生成的数据上对Llama3.18B模型进行微调而创建的。它展示了与...
AIGC前沿技术追踪
0回复
862浏览
DeepSeek R1
推理
模型
原来机器学习这么简单—线性回归
一、什么是线性回归?线性回归是一种基本但极为重要的监督学习算法,广泛用于预测连续数值型数据。其主要目标是通过分析已知数据点之间的关系,找出一个能够用来预测新数据点的函数模型。在最简单的情况下,线性回归尝试找到一条直线,这条直线能够最佳地通过数据点,并最小化预测值与实际值之间的差异。二、线性回归的原理图11维和2维输入特征的线性模型2.4模型的评估在得到模型后,我们需要评估其效果,常用的评估指标包括:...
宝宝数模AI
0回复
267浏览
机器学习
线性
回归
一文揭秘GPT:AI是如何彻底改变我们的?
你是否曾好奇,是什么让手机助手能够流畅对话,是什么驱动着智能翻译的背后引擎?答案之一就是GPT。我们今天就来深入探讨一下GPT,这个正在引领语言模型革命的AI工具。什么是GPT?——人工智能的语言大师GPT,全称GenerativePreTrainingTransformer,是由OpenAI公司提出的一种先进的语言预训练模型。自从OpenAI在2018年发布首款GPT模型以来,GPT系列已经迅速成为自然语言处理领域的标杆。最初,OpenAI在论文《ImprovingLanguage...
唐克
0回复
318浏览
GPT
AI
语言
一文读懂AI智能体的原理类型、功能优势和最常见使用场景
原创
社区头条
热门内容榜
• 最近上榜
在当代科技风潮中,AIAgent凭借其独特能力崭露头角。其核心构造基于LLM,辅以记忆、任务规划及工具使用等关键组件,共同构建出完整体系。作为掌控LLM的智能代理,AIAgent通过理解意图与生成文本,展现卓越能力。尤其当学会利用工具时,其潜力无限放大,有望成为人类的得力助手。进入大语言模型时代,AIAgent以自治、知觉、反应、推理与决策、学习、通信及以目标为导向等特性脱颖而出。它不仅能自主执行任务,还能感知环境并作出...
数字化助推器
0回复
1414浏览
AI
智能体
人工智能
沸腾了!新的推理模型编码能力爆表!是的,那个王,他又回来了!
精华
圣诞节在二月,Claude扔了个王炸!看来爆料者的信息还挺准的:明天:Claude4没等到,Claude3.7要来了?不是嘛,哈哈哈。Anthropic官方有个毛病,他们通常不会做任何的预发布,大半夜他给你扔出来了个王炸:这次的新模型叫:Claude3.7Sonnet,它带来了一种新的思维方式。它不再把快速回答和深度思考割裂开来,而是像人类大脑一样,在同一个模型中实现两种能力。Claude3.7Sonnet既能快速回答问题,也能在需要时进行深度思考,给用...
老蛀虫
0回复
567浏览
推理
模型
编码
革命性升级!Claude 3.7 Sonnet 发布:首个混合推理模型,开发者效率翻倍!
Anthropic正式推出Claude3.7Sonnet,不仅是目前最智能的模型,更是全球首个支持混合推理的AI系统。它能像人类一样在“秒回”与“深度思考”间无缝切换,还能通过命令行工具ClaudeCode直接接管复杂编程任务,被开发者称为“效率核武器”!一、Claude3.7Sonnet的三大颠覆性突破混合推理模式:一脑两用标准模式:响应速度与Claude3.5相当,但准确性全面提升。扩展思考模式:自我反思后输出答案,数学、物理、代码等任务性能飙升。A...
丢翅膀的鱼
0回复
389浏览
混合
推理
模型
DeepSeek开源周,第三弹, DeepGEMM来袭!
今天开源了deepseekv3中提到的的FP8GEMM内核。300行代码的暴力cuda美学,看不太懂,但是每天都可以打个酱油支持普通的矩阵乘法以及MixofExperts分组矩阵乘法。使用CUDA编写,安装时无需编译,所有内核在运行时通过轻量级的即时编译(JIT)模块动态编译。DeepGEMM设计,避免了对CUTLASS和CuTe的过度依赖,采用了更简洁的设计,核心代码只有大约300行。整个库就是非常“轻量化”,但同时性能又很强大,甚至超过了专家调优的库。在...
NLP前沿1
0回复
367浏览
DeepSeek
CUDA
内核
暂无内容
1
2
3
4
5
6
7
8
9
10
客服