AI.x-AIGC专属社区-51CTO.COM

大模型是一场新的搜索战争，OpenAI不会赢家通吃，一家最好被收购！

编辑言征出品51CTO技术栈（微信号：blog51cto）最近DeepSeek开源周带来了很多惊喜与热议。但小编发现大家对于马斯克的Grok3的讨论却远远不够充分。作为“大模型球赛”的最不可捉摸的强大力量，马斯克的xAI最新模型已经上线，便迅速登顶了iPhone的下载排行榜，引起的轰动同样不可小觑。此外，进入2025之后，大模型的五六个主流玩家都怎么样了？要想突破OpenAI的绝对领先的日活数据，都有哪些突破口？3月2日，硅谷知名投资人BillG...

51CTO技术栈 7h前 0回复 129浏览

大模型OpenAI马斯克

应该可以秒懂 | 白话DeepSeek R1的GRPO强化学习算法：原理、图解、视频

GRPO(GroupRelativePolicyOptimization)算法核心思想：想象一下，老师在教一个学生写作文。传统的强化学习方法（比如PPO）会给学生的每一句话打分，告诉他这句好，那句不好。但GRPO不这么做，它更像是一位“佛系”老师：不看过程，看结果：GRPO不会逐句指导学生，而是让学生一口气写完几篇不同的作文（一组作文）。几篇作文一起比较：然后，老师把这几篇作文放在一起比较，根据一个预先定好的规则（基于规则的奖励模型），评判...

后向传播 3天前 0回复 370浏览

DeepSeekGRPO算法

浅谈国产化AI芯片模型部署实践

国产化AI芯片的发展已经成为国内信息技术产业的一个重要领域，它的发展始于对高性能计算需求的崛起，尤其是在人工智能和大数据领域，国内的科研机构和高新技术企业开始投入大量资源用于AI芯片的研发，以满足国内应用的需求。并且随着中国在各个高新领域的不断发力与国外AI芯片技术近年来不断加深的制裁，各个行业的企业也开始合作，以共同推动AI芯片的研发和应用，包括通信、云计算、智能制造、自动驾驶等领域。国内市场对AI芯...

zhcs333 3天前 0回复 225浏览

国产化AI芯片

KGGen用语言模型从纯文本中提取知识图谱

从事大模型应用的读者都可能受到知识图谱（KG）不足的困扰，知识图谱的构建与运营常常是耗时费力的手工过程。斯坦福最新工作KGGen【文献1】，利用大语言模型（LLM）从非结构化文本中自动生成高质量知识图谱，等于从LLM提取出语义。简介知识图谱是信息检索等应用中基本的数据结构，通过主谓宾三元组表示实体之间的关系。然而，许多现有的KG存在不完整性，缺乏实体之间的众多关系，这对下游任务如KG嵌入和基于图的推理造成了挑战...

ceesoft 3天前 0回复 291浏览

KGGen语言模型

如何安全地使用第三方应用程序访问DeepSeek

译者张哲刚审校重楼AI编码助手改变了开发人员编写软件的方式。它们可以自动执行重复性的任务，及早发现错误，进而加快开发进度。但是，并不是所有的AI编码工具在构建时都考虑到了安全性这个重要的问题。DeepSeek是最优秀最有前途的免费AI编码助手之一。它被誉为游戏规则改变者，其推理模型堪比OpenAIo1，甚至更好。它能够提供高级代码建议，并且支持多种编程语言。但有一个问题是——当你输入代码后，你知道都发生了些什么吗...

51CTO内容精选 3天前 0回复 308浏览

DeepSeek安全QodoGenPerplexity AI

详解AI代理的内部工作机理

原创

我在过去设计对话式系统时亲眼目睹了传统AI的局限性。我设计的系统可以可靠地检测实体，但其僵硬的逻辑使得这种解决方案不能扩展。对话遵循预先编程的路径：如果用户说X，就回应Y。任何偏差都会破坏整个流程，凸显出这类系统有多死板多僵硬。基于基础模型的代理改变了这一切。它们是自主系统，能够处理不可预测的场景并无缝协作。代理可以规划行程、收集实时数据或管理客户账户，随时适应变化。代理不仅仅是工具的使用者，它们...

51CTO内容精选 13h前 0回复 179浏览

AI代理人工智能基础模型

OpenAI发布GPT-4.5：功能非常特殊，推理很贵

精华

今天凌晨4点，OpenAI进行了在线技术直播，发布了最新模型GPT4.5。GPT4.5与之前的模型相比，本次最大的亮点是加上了“情商”，这也是目前所有大模型最缺、最难的功能。此外，GPT4.5在SimpleQA上的测试数据显示，超过OpenAIo1、OpenAIo3mini并且幻觉非常低，是目前OpenAI最强大模型之一。OpenAI联合创始人兼首席执行官SamAltman特意发文对GPT4.5进行了详细解读。对我来说，GPT4.5是第一个让我感觉像是在和一个有思想的人对话的模...

Aceryt 3天前 0回复 982浏览

模型OpenAI数据

如何安全地使用第三方应用程序访问DeepSeek

译者张哲刚审校重楼AI编码助手改变了开发人员编写软件的方式。它们可以自动执行重复性的任务，及早发现错误，进而加快开发进度。但是，并不是所有的AI编码工具在构建时都考虑到了安全性这个重要的问题。DeepSeek是最优秀最有前途的免费AI编码助手之一。它被誉为游戏规则改变者，其推理模型堪比OpenAIo1，甚至更好。它能够提供高级代码建议，并且支持多种编程语言。但有一个问题是——当你输入代码后，你知道都发生了些什么吗...

51CTO内容精选 3天前 0回复 308浏览

DeepSeek安全QodoGenPerplexity AI

应该可以秒懂 | 白话DeepSeek R1的GRPO强化学习算法：原理、图解、视频

GRPO(GroupRelativePolicyOptimization)算法核心思想：想象一下，老师在教一个学生写作文。传统的强化学习方法（比如PPO）会给学生的每一句话打分，告诉他这句好，那句不好。但GRPO不这么做，它更像是一位“佛系”老师：不看过程，看结果：GRPO不会逐句指导学生，而是让学生一口气写完几篇不同的作文（一组作文）。几篇作文一起比较：然后，老师把这几篇作文放在一起比较，根据一个预先定好的规则（基于规则的奖励模型），评判...

后向传播 3天前 0回复 370浏览

DeepSeekGRPO算法

KGGen用语言模型从纯文本中提取知识图谱

从事大模型应用的读者都可能受到知识图谱（KG）不足的困扰，知识图谱的构建与运营常常是耗时费力的手工过程。斯坦福最新工作KGGen【文献1】，利用大语言模型（LLM）从非结构化文本中自动生成高质量知识图谱，等于从LLM提取出语义。简介知识图谱是信息检索等应用中基本的数据结构，通过主谓宾三元组表示实体之间的关系。然而，许多现有的KG存在不完整性，缺乏实体之间的众多关系，这对下游任务如KG嵌入和基于图的推理造成了挑战...

ceesoft 3天前 0回复 291浏览

KGGen语言模型

阿里发布通义万相2.1 :最佳视频生成模型

原创

01、概述随着人工智能技术的不断发展，视频生成领域也迎来了革命性的进步。阿里云推出的通义万相2.1，正是这一突破的代表，它是一款集高质量、精准运动生成与多语言支持于一身的先进视频生成模型。今天，我们将带你了解这款引领行业的技术产品，以及它如何通过尖端创新，帮助各行各业实现更高效、更智能的视频创作。02、什么是通义万相2.1？通义万相2.1由阿里云通义万相AI团队开发，旨在通过将文本描述转化为高质量视频，带来前...

Halo咯咯 3天前 0回复 444浏览

通义万相2.1视频生成AI视频创作阿里云

ICLR 2025 | 视频编辑最新SOTA！VideoGrain零样本实现多粒度控制，精准到像素级

论文链接：https:arxiv.orgpdf2502.17258git链接：https:knightyxp.github.ioVideoGrainprojectpage亮点直击首次尝试多粒度视频编辑的方法。支持类别级、实例级和局部级的编辑。提出了一个新颖的框架，称为VideoGrain，该框架通过调节时空跨注意力和自注意力，实现文本到区域的控制以及区域间特征的分离。在无需调整任何参数的情况下，在现有基准测试和真实世界视频上都取得了定性和定量的最新成果。总结速览解决的问题多粒度视...

angel 3天前 0回复 248浏览

AI视频生成

DeepSeek开源优化并行策略，提升训练和通信效率

今早10点，DeepSeek开启了第四天技术分享，开源了三个优化并行策略。分别是DualPipe，一种用于V3R1训练中计算与通信重叠的双向流水线并行算法；EPLB，针对V3R1的专家并行负载平衡器；用于分析V3R1中的计算通信重叠。开源地址：https:github.comdeepseekaiDualPipehttps:github.comdeepseekaieplbhttps:github.comdeepseekaiprofiledataDualPipe是一种创新的双向流水线并行算法，曾首次在V3版本中使用过。与传统...

Aceryt 4天前 0回复 376浏览

模型训练AI

详解MMoE 模型：多任务学习中的专家混合建模与实践【附代码】

MMOE模型由谷歌研究团队于2018年在论文《ModelingTaskRelationshipsinMultitaskLearningwithMultigateMixtureofExperts》中提出，是一种新颖的多任务学习框架，广泛应用于推荐系统中。本文从技术背景、演化过程、计算原理、关键问题解析以及基于PyTorch的代码实现方面对MMoE架构进行深入探究。1.技术背景（1）多任务学习的本质是共享表示以及相关任务的相互影响，多任务学习模型并不总是在所有任务上都优于相应的单任务模型。（...

南夏的算法驿站 4天前 0回复 304浏览

MMoE模型技术

AI.x社区

51CTO

51CTO博客

51CTO学堂

社区头条

2025年03月

大模型是一场新的搜索战争，OpenAI不会赢家通吃，一家最好被收购！

应该可以秒懂 | 白话DeepSeek R1的GRPO强化学习算法：原理、图解、视频

浅谈国产化AI芯片模型部署实践

KGGen用语言模型从纯文本中提取知识图谱

如何安全地使用第三方应用程序访问DeepSeek

详解AI代理的内部工作机理

OpenAI发布GPT-4.5：功能非常特殊，推理很贵

如何安全地使用第三方应用程序访问DeepSeek

应该可以秒懂 | 白话DeepSeek R1的GRPO强化学习算法：原理、图解、视频

KGGen用语言模型从纯文本中提取知识图谱

阿里发布通义万相2.1 :最佳视频生成模型

ICLR 2025 | 视频编辑最新SOTA！VideoGrain零样本实现多粒度控制，精准到像素级

DeepSeek开源优化并行策略，提升训练和通信效率

详解MMoE 模型：多任务学习中的专家混合建模与实践【附代码】

2025年02月

只需几步！用 vLLM 快速上手 DeepSeek 大模型部署

一文读懂AI智能体的原理类型、功能优势和最常见使用场景

白嫖资源训练 DeepSeek R1 推理模型

从推理到编程，详细比较DeepSeek 32B、70B、R1实践性能

DeepSeek R1 全系列模型部署指南

一文搞懂 DeepSeek 的蒸馏技术和案例实践

友情链接

关注我们