51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
WOT技术大会
IT证书
公众号矩阵
移动端
短视频
免费课程
课程排行
直播课
软考学堂
全部课程
厂商认证
IT技术
25年5月软考
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
我的关注
全部帖子
默认
发布时间
热度
原创
精华
热门标签
AI
ChatGPT
LLM
大模型底座之向量化,以及向量化的原理
原创
“向量化是一切大模型技术的基础,大模型中的一切都是向量。”在之前的文章曾不止一次的讲过向量,向量作为大模型的基础数据格式,其重要性不言而喻;但大部分人对向量还是没有一个深刻的认识。所以,今天我们就来讨论一个问题,那就是向量化,大模型的入口。向量化向量的概念这里就不解释了,有问题的可以看之前的文章,或者自己去找一下向量,矩阵的内容看看。先来讨论第一个问题,为什么要向量化?原因在于计算机无法直接处...
AI探索时代
0回复
99浏览
大模型
向量化
华为终端BG李小龙曝出业界翻车难题:手机拍摄的模糊文字,用AI增强很容易翻车
原创
社区头条
编辑言征出品51CTO技术栈(微信号:blog51cto)近日,华为终端BG李小龙发博展示了Mate70Pro+的AI照片增强的功能,并热心询问大家对于AI云增强效果是否满意。图片为了方便大家查看效果,大家可以点击下面的大图来查看AI增强效果。左侧是原图,右侧是AI增强图左侧是原图,右侧是AI增强图不过一位好奇的网友在评论区问了一个让李小龙非常关注的问题:小龙总,高倍率看不清楚的字能AI(增强)吗,最好要自然点,不能弄成假的。图片...
51CTO技术栈
0回复
190浏览
华为
手机
AI
新鲜速递:图解新颖LLM的CoPE位置编码
原创
1.快速总览研究人员提出了一种新颖的位置编码方法,称为上下文位置编码(下文称之为CoPE),它有别于基于标记的传统位置编码范式。它以上下文依赖的方式测量位置,在按位置寻址时会更加自由它在如下的任务中获得不错的收益:FlipFlop,SelectiveCopy,Counting,LanguageModeling,andCodeModelingtasks它优于现有方法,尤其是在域外泛化场景它有可能改善其他领域的编码,例如视频和语音。在这些领域,基于Token位置的编码不太合适...
鲁班模锤1
0回复
139浏览
LLM
CoPE
位置编码
长文 | 大模型Post-Training总结
今天给大家带来一篇知乎好友hadiii的一篇文章,汇总Llama3.1、DeepSeekV3、TÜLU3和Qwen2.5的后训练PostTraining技术。知乎:https:zhuanlan.zhihu.comp12862210431本文汇总Llama3.1,DeepSeekV3,TÜLU3,Qwen2.5报告的后训练部分,摘录其中核心的细节。大多涉及到数据,SFT,RL(各种RM训练,DPO,GRPO,RLVR等等)。1.Llama3.1paper:https:ai.meta.comresearchpublicationsthellama3herdofmodelsIllustrationoftheoverallpos...
NLP工作站
0回复
120浏览
大模型
Post
-Train
HybGRAG:Hit@1 的平均相对提升率达到 51%的新思路
1.传统RAG存在的问题检索增强生成(RetrievalAugmentedGeneration,RAG)能让大型语言模型(LLMs)从非结构化文档数据库获取信息,使得LLMs就能处理未知事实,并借助额外的文本信息解决开放域问答(OpenDomainQuestionAnswering,ODQA)问题。图检索增强生成(GraphRAG,GRAG)从结构化知识库中检索信息,其中的文档通过关系相互关联。现有的GRAG方法主要集中在两个方向:•从知识图谱(KnowledgeGraphs,KGs)中提取关系信息,...
大语言模型论文跟踪
0回复
155浏览
HybGRAG
Hit@1
ICL
马斯克又又又跳票了!说好年底推出的“重大飞跃”的Grok 3,迟迟未现身!
原创
社区头条
编辑伊风出品51CTO技术栈(微信号:blog51cto)有没有人发现——马斯克又又又又跳票了??你说好“年底”发的Grok3呢?不会是2025年年底吧“Grok3经过100kH100的训练后,2024年底应该会非常特别。”马斯克在7月的一篇X平台帖子中写道,提到xAI在孟菲斯建立的庞大GPU集群。图片在12月15日的帖子表示,“Grok3将是一次重大的飞跃”。图片然而,今天都1月3日了,也没有听说即将发布Grok3的消息!事实上,就算最近xAI有所动作,也只...
51CTO技术栈
0回复
186浏览
马斯克
模型
AI
Meta HSTU:统一的生成式推荐
一、背景在之前的文章中我们介绍了字节的HLLM方案(字节HLLM:大模型与推荐系统结合的新范式),其中也提到了Meta的HSTU,本文中我们简单介绍一些这篇论文。对应的论文为:[2402.17152]ActionsSpeakLouderthanWords:TrillionParameterSequentialTransducersforGenerativeRecommendations对应的代码库为:GitHubfacebookresearchgenerativerecommenders二、摘要大规模推荐系统具有以下特征:依赖于高基数、异质特征,...
amei2000go
0回复
257浏览
Meta
生成式
推荐
当ChatGPT爆火后,大语言模型LLM的完整修炼之路 | 为什么说AI Agent还不够?
1、当ChatGPT爆火后,大语言模型LLM的完整修炼之路图片从ChatGPT横空出世以来,大语言模型(LLM)已经成为了AI领域最炙手可热的研究方向。最近发表的这篇综述性论文为我们全面解析了LLM从训练到推理的完整技术路线图。图片纵观LLM的发展历程,我们见证了一个重要的技术演进过程:从最早的统计语言模型(SLM),到基于神经网络的语言模型(NLM),再到以ELMo为代表的预训练语言模型(PLM)。而真正的突破性进展,则是Transformer架构的...
sbf_2000
0回复
109浏览
ChatGPT
LLM
Agent
一文读懂Agent的治理难题与解决方案 | 4000份AI数据集大揭秘:训练数据的来源、版权与地域差异
1、AIAgent的"紧箍咒":一文读懂agent的治理难题与解决方案图片随着AIAgent能力的不断提升,如何确保这些能够自主完成复杂任务的智能代理安全可控,成为了一个亟待解决的问题。一篇最新发表的白皮书深入分析了AIAgent的治理挑战,并提出了一套切实可行的安全治理框架。让我们先看一个生动的例子:假设一个AI助手被要求帮用户购买制作日式芝士蛋糕的材料,但它却错误地订了一张飞往日本的昂贵机票。这个案例揭示了AIAgent治理...
sbf_2000
0回复
196浏览
agent
数据
语音
DeepSeek-V3 模型深度剖析:架构创新、训练优化与性能卓越
一、引言在大语言模型(LLM)的蓬勃发展浪潮中,开源与闭源模型竞相角逐。开源阵营的DeepSeek系列持续演进,DeepSeekV3重磅登场,其以671B的庞大总参数量和独特创新设计,在性能上脱颖而出,成为研究焦点,有力推动了自然语言处理领域的发展进程,为开源模型在智能语言处理领域争得重要席位。报告地址:https:github.comdeepseekaiDeepSeekV3blobmainDeepSeekV3.pdf项目地址:https:github.comdeepseekaiDeepSeekV3...
AI论文解读
0回复
134浏览
DeepSeek-V3
架构
训练优化
ACL2024 | 利用GPT4构建的多Agent系统自动发现科学假设
今天分享一篇来自南阳理工的一篇文章《LargeLanguageModelsforAutomatedOpendomainScientificHypothesesDiscovery》。本研究的目标是探索如何使用大型语言模型,尤其是GPT4,来自动发现科学假设。目前假设性归纳研究的局限性在于使用的数据不是原始网络语料库,而是手动选择后的句子,导致了来源较为封闭;同时,现有的假设标注大多是常识性知识,任务挑战性不足。本文提出了首个针对社会科学学术假设发现的自然语言处理(NLP)...
arnoldzhw
0回复
159浏览
GPT4
Agent
系统
故障诊断 | 信号降噪算法合集,你学会了吗?
前言在轴承故障信号中既包含轴承转动声音,又包含场景中的其他噪声信息。如何聚焦轴承转动的时域特征和频域特征,降低场景噪声的干扰,是我们需要解决的问题。本期为大家介绍几种常用且高效的信号降噪算法:(1)离散小波变换(DWT):通过将信号分解到不同的频带,有效地分离出噪声和故障特征。(2)经验模态分解(EMD):自适应地将信号分解为一系列本征模态函数(IMF),每个IMF代表不同尺度的成分。(3)经验小波变换(EWT...
Tang_Lan
0回复
214浏览
信号
降噪
算法
停止支付 OpenAI 税:新兴的开源 AI Agent 智能体全景技术栈
原创
一套开源模型和工具,使任何开发者都能构建最先进的AIAgent智能体应用程序。如果我们能回到过去,告诉软件工程师他们的应用程序将由神秘的AIAgent智能体驱动,我们对它的内部运作一无所知,并且他们为了体验的便利性,将最敏感的数据交给第三方,他们可能会摇头表示不相信。但现在的我们就是这样。如今,全世界的开发者都在围绕AIAgent智能体重新想象他们的应用程序,而这默认意味着将专有的大语言模型(LLMs)集成到每个方面。...
玄姐聊AGI
0回复
182浏览
AI Agent
智能体
一文彻底搞懂SOTA模型 - Faster R-CNN(2016)
原创
FasterRCNN是一种基于卷积神经网络(CNN)的目标检测算法,旨在实现高效、准确的目标检测。它主要包括特征提取器、区域提议网络(RPN)和分类器三个部分,这三个部分协同工作,使得FasterRCNN能够在单个神经网络中同时实现目标检测和特征提取。在ILSVRC2016的图像目标检测任务中,国内团队大放异彩,包揽了该任务的前五名。这些团队大多采用了ResNetInception网络结合FasterRCNN框架的方法,并注重网络的预训练、改进RPN(Regio...
架构师带你玩转AI
0回复
102浏览
SOTA模型
Faster R-CNN
构建AI Agent必学的4种设计模式,一文了解
原创
编者按:在构建AI助手和智能体时,应该采用怎样的设计模式才能让它们更加高效、可靠?我们今天为大家带来的这篇文章详细介绍了四种设计模式的特点和应用场景:ReflectionPattern通过自我评估来优化输出和决策;ToolUsePattern让AI能够调用和整合外部工具;PlanningPattern将复杂任务分解为可管理的子任务;以及MultiAgentCollaborationPattern实现多个AIAgent之间的协作。作者引用了AndrewNg的观点,指出虽然后两种模式富有前景...
Baihai_IDP
0回复
113浏览
Agents
LLMs
突破算力限制!Meta开源“记忆层”,重塑Transformer架构大模型
精华
今天凌晨3点,全球社交巨头Meta分享了一个创新研究——Memorylayers(记忆层)。目前,Transformer架构的预训练大模型在存储、查询数据时,随着参数的变大对算力的需求呈指数级增长。“记忆层”提出了新的高效查询机制替代了传统的查询方法,通过比较查询键与两个较小集合中的键,可以快速找到最相关的键,而无需遍历模型的整个记忆层。这也就是说,可以在不增加算力的情况下显著增加大模型的参数。例如,研究人员在仅有1.3亿参...
Aceryt
0回复
194浏览
模型
算力
开源
别再将LLM当成数据库了
原创
社区头条
本文介绍了为什么批处理范式已过时,它如何阻碍AI应用,以及为什么AI的未来需要一种实时事件流平台。想象一下,你戴着耳机驾驶一辆汽车,每五分钟才更新一次路况信息,而不是持续不断地提供当前位置情况的视频流。过不了多久,你就会撞车。虽然这种类型的批处理在现实世界中并不适用,却是当今许多系统运行的方式。批处理诞生于过时的技术限制,迫使应用程序依赖静态的延迟数据。当计算、内存和存储均有限时,这种方法可能是唯...
51CTO内容精选
0回复
205浏览
LLM
大语言模型
生成式AI
李彦宏的全员信:AI原生应用将迎来井喷式增长!走在技术的最前沿:风险更大、还要耐得住寂寞!
原创
社区头条
出品51CTO技术栈(微信号:blog51cto)2025,新年的第一天,李彦宏发布了全员信!在信中,他肯定了百度2024年在AI领域的成就,重点提到了萝卜快跑、秒哒、百度文库等产品的发布和改进。并坚定地认为,AI仍将是百度在新一年的关键词!其中有个明确的判断,那就是AI原生应用的井喷就要来了!“虽然超级应用尚未出现,AI的实际渗透率已经不低,并且将在2025年继续井喷式增长。我们也期待,我们在2023、2024种下的种子能够在2025生...
51CTO技术栈
0回复
187浏览
李彦宏
AI
技术
一文彻底搞懂SOTA模型 - ResNet(2015)
原创
ResNet(ResidualNetwork,残差网络)是2015年由微软研究院提出的一种深度神经网络架构,它在深度学习领域,尤其是计算机视觉任务中取得了重要突破。在ImageNet数据集上,ResNet的一个152层深的网络组合模型在测试集上的错误率仅为3.57%,获得了2015年ILSVRC分类任务的第一名。此外,ResNet还在COCO目标检测数据集上获得了28%的相对提升,并在ILSVRC&COCO2015竞赛的ImageNet检测、ImageNet定位、COCO检测以及COCO分割上均获得...
架构师带你玩转AI
0回复
118浏览
SOTA模型
ResNet
一文彻底搞懂SOTA模型 - VGG(2014)
原创
VGG是在2014年由牛津大学科学工程系VisualGeometryGroup组提出的。VGG网络主要证明了增加网络的深度能够在一定程度上影响网络最终的性能,并在ImageNet大规模视觉识别挑战赛(ILSVRC)中取得了显著成绩。VGG网络在分类任务(ClassificationTask)中,VGG网络获得了第二名;在定位任务(LocalizationTask)中,VGG网络获得了第一名。VGG一、VGGVGG(VisualGeometryGroup)是什么?VGG是由牛津大学的视觉几何组(VisualGeometryGr...
架构师带你玩转AI
0回复
114浏览
SOTA模型
VGG
暂无内容
1
2
3
4
5
6
7
8
9
10
客服