51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
WOT技术大会
IT证书
公众号矩阵
移动端
短视频
免费课程
课程排行
直播课
软考学堂
全部课程
厂商认证
IT技术
25年5月软考
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
首页
/
社区头条
社区头条
753
篇优秀内容
2025年03月
大模型是一场新的搜索战争,OpenAI不会赢家通吃,一家最好被收购!
原创
编辑言征出品51CTO技术栈(微信号:blog51cto)最近DeepSeek开源周带来了很多惊喜与热议。但小编发现大家对于马斯克的Grok3的讨论却远远不够充分。作为“大模型球赛”的最不可捉摸的强大力量,马斯克的xAI最新模型已经上线,便迅速登顶了iPhone的下载排行榜,引起的轰动同样不可小觑。此外,进入2025之后,大模型的五六个主流玩家都怎么样了?要想突破OpenAI的绝对领先的日活数据,都有哪些突破口?3月2日,硅谷知名投资人BillG...
51CTO技术栈
7h前
0回复
129浏览
大模型
OpenAI
马斯克
应该可以秒懂 | 白话DeepSeek R1的GRPO强化学习算法:原理、图解、视频
GRPO(GroupRelativePolicyOptimization)算法核心思想:想象一下,老师在教一个学生写作文。传统的强化学习方法(比如PPO)会给学生的每一句话打分,告诉他这句好,那句不好。但GRPO不这么做,它更像是一位“佛系”老师:不看过程,看结果:GRPO不会逐句指导学生,而是让学生一口气写完几篇不同的作文(一组作文)。几篇作文一起比较:然后,老师把这几篇作文放在一起比较,根据一个预先定好的规则(基于规则的奖励模型),评判...
后向传播
3天前
0回复
370浏览
DeepSeek
GRPO
算法
浅谈国产化AI芯片模型部署实践
国产化AI芯片的发展已经成为国内信息技术产业的一个重要领域,它的发展始于对高性能计算需求的崛起,尤其是在人工智能和大数据领域,国内的科研机构和高新技术企业开始投入大量资源用于AI芯片的研发,以满足国内应用的需求。并且随着中国在各个高新领域的不断发力与国外AI芯片技术近年来不断加深的制裁,各个行业的企业也开始合作,以共同推动AI芯片的研发和应用,包括通信、云计算、智能制造、自动驾驶等领域。国内市场对AI芯...
zhcs333
3天前
0回复
225浏览
国产化
AI
芯片
KGGen用语言模型从纯文本中提取知识图谱
从事大模型应用的读者都可能受到知识图谱(KG)不足的困扰,知识图谱的构建与运营常常是耗时费力的手工过程。斯坦福最新工作KGGen【文献1】,利用大语言模型(LLM)从非结构化文本中自动生成高质量知识图谱,等于从LLM提取出语义。简介知识图谱是信息检索等应用中基本的数据结构,通过主谓宾三元组表示实体之间的关系。然而,许多现有的KG存在不完整性,缺乏实体之间的众多关系,这对下游任务如KG嵌入和基于图的推理造成了挑战...
ceesoft
3天前
0回复
291浏览
KGGen
语言
模型
如何安全地使用第三方应用程序访问DeepSeek
译者张哲刚审校重楼AI编码助手改变了开发人员编写软件的方式。它们可以自动执行重复性的任务,及早发现错误,进而加快开发进度。但是,并不是所有的AI编码工具在构建时都考虑到了安全性这个重要的问题。DeepSeek是最优秀最有前途的免费AI编码助手之一。它被誉为游戏规则改变者,其推理模型堪比OpenAIo1,甚至更好。它能够提供高级代码建议,并且支持多种编程语言。但有一个问题是——当你输入代码后,你知道都发生了些什么吗...
51CTO内容精选
3天前
0回复
308浏览
DeepSeek
安全
QodoGen
Perplexity AI
详解AI代理的内部工作机理
原创
我在过去设计对话式系统时亲眼目睹了传统AI的局限性。我设计的系统可以可靠地检测实体,但其僵硬的逻辑使得这种解决方案不能扩展。对话遵循预先编程的路径:如果用户说X,就回应Y。任何偏差都会破坏整个流程,凸显出这类系统有多死板多僵硬。基于基础模型的代理改变了这一切。它们是自主系统,能够处理不可预测的场景并无缝协作。代理可以规划行程、收集实时数据或管理客户账户,随时适应变化。代理不仅仅是工具的使用者,它们...
51CTO内容精选
13h前
0回复
179浏览
AI代理
人工智能
基础模型
OpenAI发布GPT-4.5:功能非常特殊,推理很贵
精华
今天凌晨4点,OpenAI进行了在线技术直播,发布了最新模型GPT4.5。GPT4.5与之前的模型相比,本次最大的亮点是加上了“情商”,这也是目前所有大模型最缺、最难的功能。此外,GPT4.5在SimpleQA上的测试数据显示,超过OpenAIo1、OpenAIo3mini并且幻觉非常低,是目前OpenAI最强大模型之一。OpenAI联合创始人兼首席执行官SamAltman特意发文对GPT4.5进行了详细解读。对我来说,GPT4.5是第一个让我感觉像是在和一个有思想的人对话的模...
Aceryt
3天前
0回复
982浏览
模型
OpenAI
数据
如何安全地使用第三方应用程序访问DeepSeek
译者张哲刚审校重楼AI编码助手改变了开发人员编写软件的方式。它们可以自动执行重复性的任务,及早发现错误,进而加快开发进度。但是,并不是所有的AI编码工具在构建时都考虑到了安全性这个重要的问题。DeepSeek是最优秀最有前途的免费AI编码助手之一。它被誉为游戏规则改变者,其推理模型堪比OpenAIo1,甚至更好。它能够提供高级代码建议,并且支持多种编程语言。但有一个问题是——当你输入代码后,你知道都发生了些什么吗...
51CTO内容精选
3天前
0回复
308浏览
DeepSeek
安全
QodoGen
Perplexity AI
应该可以秒懂 | 白话DeepSeek R1的GRPO强化学习算法:原理、图解、视频
GRPO(GroupRelativePolicyOptimization)算法核心思想:想象一下,老师在教一个学生写作文。传统的强化学习方法(比如PPO)会给学生的每一句话打分,告诉他这句好,那句不好。但GRPO不这么做,它更像是一位“佛系”老师:不看过程,看结果:GRPO不会逐句指导学生,而是让学生一口气写完几篇不同的作文(一组作文)。几篇作文一起比较:然后,老师把这几篇作文放在一起比较,根据一个预先定好的规则(基于规则的奖励模型),评判...
后向传播
3天前
0回复
370浏览
DeepSeek
GRPO
算法
KGGen用语言模型从纯文本中提取知识图谱
从事大模型应用的读者都可能受到知识图谱(KG)不足的困扰,知识图谱的构建与运营常常是耗时费力的手工过程。斯坦福最新工作KGGen【文献1】,利用大语言模型(LLM)从非结构化文本中自动生成高质量知识图谱,等于从LLM提取出语义。简介知识图谱是信息检索等应用中基本的数据结构,通过主谓宾三元组表示实体之间的关系。然而,许多现有的KG存在不完整性,缺乏实体之间的众多关系,这对下游任务如KG嵌入和基于图的推理造成了挑战...
ceesoft
3天前
0回复
291浏览
KGGen
语言
模型
阿里发布通义万相2.1 :最佳视频生成模型
原创
01、概述随着人工智能技术的不断发展,视频生成领域也迎来了革命性的进步。阿里云推出的通义万相2.1,正是这一突破的代表,它是一款集高质量、精准运动生成与多语言支持于一身的先进视频生成模型。今天,我们将带你了解这款引领行业的技术产品,以及它如何通过尖端创新,帮助各行各业实现更高效、更智能的视频创作。02、什么是通义万相2.1?通义万相2.1由阿里云通义万相AI团队开发,旨在通过将文本描述转化为高质量视频,带来前...
Halo咯咯
3天前
0回复
444浏览
通义万相2.1
视频生成
AI视频创作
阿里云
ICLR 2025 | 视频编辑最新SOTA!VideoGrain零样本实现多粒度控制,精准到像素级
论文链接:https:arxiv.orgpdf2502.17258git链接:https:knightyxp.github.ioVideoGrainprojectpage亮点直击首次尝试多粒度视频编辑的方法。支持类别级、实例级和局部级的编辑。提出了一个新颖的框架,称为VideoGrain,该框架通过调节时空跨注意力和自注意力,实现文本到区域的控制以及区域间特征的分离。在无需调整任何参数的情况下,在现有基准测试和真实世界视频上都取得了定性和定量的最新成果。总结速览解决的问题多粒度视...
angel
3天前
0回复
248浏览
AI
视频
生成
DeepSeek开源优化并行策略,提升训练和通信效率
今早10点,DeepSeek开启了第四天技术分享,开源了三个优化并行策略。分别是DualPipe,一种用于V3R1训练中计算与通信重叠的双向流水线并行算法;EPLB,针对V3R1的专家并行负载平衡器;用于分析V3R1中的计算通信重叠。开源地址:https:github.comdeepseekaiDualPipehttps:github.comdeepseekaieplbhttps:github.comdeepseekaiprofiledataDualPipe是一种创新的双向流水线并行算法,曾首次在V3版本中使用过。与传统...
Aceryt
4天前
0回复
376浏览
模型
训练
AI
详解MMoE 模型:多任务学习中的专家混合建模与实践【附代码】
MMOE模型由谷歌研究团队于2018年在论文《ModelingTaskRelationshipsinMultitaskLearningwithMultigateMixtureofExperts》中提出,是一种新颖的多任务学习框架,广泛应用于推荐系统中。本文从技术背景、演化过程、计算原理、关键问题解析以及基于PyTorch的代码实现方面对MMoE架构进行深入探究。1.技术背景(1)多任务学习的本质是共享表示以及相关任务的相互影响,多任务学习模型并不总是在所有任务上都优于相应的单任务模型。(...
南夏的算法驿站
4天前
0回复
304浏览
MMoE
模型
技术
2025年02月
只需几步!用 vLLM 快速上手 DeepSeek 大模型部署
大语言模型的落地应用离不开高效推理框架的支持,vLLM以其卓越的性能在众多框架中脱颖而出。本文将带你深入探索如何使用vLLM框架部署DeepSeekR1DistillQwen大语言模型,无论是深度学习新手还是有经验的开发者,都能从中获取实用的知识和技能。一、vLLM框架特性解析1、高效内存管理:vLLM的PagedAttention算法,通过动态分页管理显存,内存利用率提升24倍,显著降低硬件门槛。2、吞吐量提升:支持连续批处理和异步推理,在A100GP...
穿越时空111
5天前
0回复
596浏览
vLLM
DeepSeek
模型
一文读懂AI智能体的原理类型、功能优势和最常见使用场景
原创
在当代科技风潮中,AIAgent凭借其独特能力崭露头角。其核心构造基于LLM,辅以记忆、任务规划及工具使用等关键组件,共同构建出完整体系。作为掌控LLM的智能代理,AIAgent通过理解意图与生成文本,展现卓越能力。尤其当学会利用工具时,其潜力无限放大,有望成为人类的得力助手。进入大语言模型时代,AIAgent以自治、知觉、反应、推理与决策、学习、通信及以目标为导向等特性脱颖而出。它不仅能自主执行任务,还能感知环境并作出...
数字化助推器
5天前
0回复
1168浏览
AI
智能体
人工智能
白嫖资源训练 DeepSeek R1 推理模型
精华
DeepSeek颠覆了AI领域,通过推出一系列全新高级推理模型挑战OpenAI的主导地位。最棒的是?这些模型完全免费使用,没有任何限制,每个人都可以使用。您可以在下面观看有关如何微调DeepSeek的视频教程。在本教程中,我们将在HuggingFace的医疗思维链数据集上对模型进行微调,微调的基础模型为DeepSeekR1DistillLlama8B。这个精简的DeepSeekR1模型是通过在使用DeepSeekR1生成的数据上对Llama3.18B模型进行微调而创建的。它展示了与...
AIGC前沿技术追踪
5天前
0回复
717浏览
DeepSeek R1
推理
模型
从推理到编程,详细比较DeepSeek 32B、70B、R1实践性能
引言前段时间,AI圈被国产黑马DeepSeekR1模型“霸屏”了!这匹开源领域的“潜力新星”,在推理能力上和OpenAI的o1不相上下,甚至在资源利用上更胜一筹,很“省资源”。它的横空出世,不仅打破了大众对国产AI的固有认知,更是让世界看到了中国AI厚积薄发的硬核实力,这波操作简直“杀疯了”!DeepSeek乘胜追击,基于R1模型又推出了更具针对性应用的DeepSeekR1DistillQwen32B和适合大规模数据处理的DeepSeekR1DistillLlama70B两款...
小虎哦哦
6天前
0回复
2044浏览
DeepSeek
推理
编程
DeepSeek R1 全系列模型部署指南
一、模型概述与架构分析DeepSeekR1是一款全新的大规模语言模型系列,支持复杂推理、多模态处理和技术文档生成。其核心特点包括:1.架构特性•支持多种精度训练和推理(FP8BF16INT8INT4)•采用MoE(MixtureofExperts)架构实现671B超大规模•支持混合精度训练和推理优化2.模型系列规格模型名称参数规模计算精度模型大小典型应用场景DeepSeekR1671BFP81,342GB超大规模科研计算DeepSeekR1DistillLlama70B70BBF1643GB大规模推理任务DeepS...
芝士AI吃鱼
6天前
0回复
1564浏览
DeepSeek
模型
部署
一文搞懂 DeepSeek 的蒸馏技术和案例实践
原创
DeepSeekR1在其论文(https:arxiv.orgabs2501.12948)引言部分指出,通过蒸馏技术,成功地将大模型的推理能力(比如:DeepSeekR1671B)传递给了更小型化的模型(比如:Qwen7B)。可以看出,蒸馏技术是DeepSeekR1重要的3大创新技术之一,下面详细剖析。1、DeepSeek蒸馏技术深度解读蒸馏(KnowledgeDistillation)是一种将大型复杂模型(教师模型,比如:D蒸馏(KnowledgeDistillation)是一种将大型复杂模型(教师模型,...
玄姐聊AGI
7天前
0回复
1378浏览
DeepSeek
蒸馏技术
大模型
1
2
3
4
5
6
7
8
9
10
38
客服