51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
WOT技术大会
IT证书
公众号矩阵
移动端
短视频
免费课程
课程排行
直播课
软考学堂
全部课程
厂商认证
IT技术
25年5月软考
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
我的关注
全部帖子
默认
发布时间
热度
原创
精华
热门标签
AI
人工智能
模型
论文解读:《大语言模型推理算法:从解码到元生成》
一、引言现代研究发现,训练大语言模型(LLMs)时增加计算量会带来更好的结果,但在推理时增加计算量的好处却较少被关注。本文聚焦于推理时的方法,探讨了令牌级生成算法、元生成算法和高效生成这三个主题。二、相关概念及背景1、用户目标在生成中的作用:用户使用语言模型生成输出时,可能希望获得高质量、多样化的输出,例如解决数学问题的正确答案或符合事实且写得好的总结。为了形式化这个目标,我们引入了“可接受性”的概...
智能交互引擎
0回复
899浏览
大语言模型
一文汇总:长周期时序预测有哪些优化点?
1.长周期时序预测核心问题长周期时间序列预测,指的是预测窗口较长一类时间序列预测问题。一般来说,预测长度在50个点以上,就可以认为是长周期时间序列预测问题。同时,预测长度的增加,会使得模型需要引入更长的历史序列,才能实现更好的预测。相比短周期时序预测,长周期时序预测主要面临的挑战有以下几个方面。长周期历史信息提取:相比短序列,长序列由于其样本点更多,对历史信息的提取也更加困难,模型容易随着输入历史...
海因斯DK
0回复
1870浏览
长周期
时序
预测
揭秘MemoRAG:AI记忆模块如何提升生成质量
精华
RAG技术已经成为当下提升大语言模型(LLMs)生成质量的重要手段。然而,传统的RAG方法在处理模糊信息需求或非结构化知识时存在显著局限性。近期,一项名为《MEMORAG:MOVINGTOWARDSNEXTGENRAGVIAMEMORYINSPIREDKNOWLEDGEDISCOVERY[1]》的研究提出了一种创新的RAG框架——MemoRAG,通过引入长时记忆模块,显著提升了RAG系统在复杂任务中的表现。MemoRAG的创新架构现在我们仍然以图书馆找书为例介绍MemoRAG的思路。想象一下,你在...
Syrupup
0回复
1102浏览
MemoRAG
AI
记忆模块
专用于法律的两个开源大模型,最高1410亿参数
法国国家高等教育计算中心、巴黎萨克雷大学的研究人员联合开源了专用于法律领域的大模型——SaulLM。SaulLM一共有540亿、1410亿两种参数,以及基础模型和指令微调两种版本。SaulLM的最大特色是使用了5400亿token的专业法律数据进行了预训练,包括美国、欧洲、澳大利亚等地的法律文本,输出内容的准确率高于很多同类模型。开源地址:https:huggingface.coEquallSaulLM54Base指令微调:https:huggingface.coEquallSaulLM141BInstr...
Aceryt
0回复
1042浏览
训练
模型
OpenAI将在两周内发布“草莓”模型,推理模式非常特殊!
Theinformation消息,OpenAI将在未来两周内发布最新模型“草莓”(Strawberry),会为ChatGPT等产品提供技术支持。据测试过该模型的人员透露,草莓模型的推理模式非常特殊,可以像人类一样在提供响应之前进行拟人化思考,用10—20秒的时间进行信息搜索、评估,更高效的利用现有AI算力提供更准确的内容。其实,草莓的这种特殊的推理模式,谷歌DeepMind就专门出过一篇论文进行过类似的技术介绍。目前,多数大模型的性能受限于其预...
Aceryt
0回复
685浏览
模型
计算
填补领域空白!TerDiT:首次探索大规模DiT模型量化问题
精华
论文链接:https:arxiv.orgpdf2405.14854项目链接:https:github.comLuckyLanceTerDiT最近在大规模预训练的文本到图像扩散模型方面的发展显著提高了高保真图像的生成能力,特别是基于transformer架构的扩散模型(DiTs)的出现。在这些扩散模型中,扩散transformer展示了卓越的图像生成能力,降低了FID分数并提高了可扩展性。然而,由于其庞大的参数数量,部署大规模的DiT模型可能会非常昂贵。尽管现有研究已经探索了扩散模型的...
angel
0回复
809浏览
训练
模型
突破性进展!只需单张参考图,完美仿写各种手写内容!华南理工等开源One-DM
文章链接:https:arxiv.orgpdf2409.04004git链接:https:github.comdailensonOneDM亮点直击提出一种创新的扩散模型,用于生成风格化的手写文本。这一模型的显著特点是只需一个参考样本作为风格输入,便能模仿该样本的书写风格,生成任意内容的手写文本。这种方法的简化使得风格化手写文本的生成更加高效和便捷。引入了参考样本中的高频成分,以增强手写风格的提取。通过采用这种风格增强模块,能够更精确地捕捉书写风格的细微模...
angel
0回复
624浏览
文本生成
AI
化“腐朽”为“神奇”:5 种 RAG 优化技术应对千奇百怪的 Query
原创
精华
编者按:您是否曾经遇到这样的情况:明明构建了一个功能强大的RAG系统,但用户却频繁抱怨“找不到想要的信息”或“返回的结果不够准确”?这是许多RAG应用开发者面临的共同挑战。这个问题不仅会导致用户体验下降,更可能直接影响RAG系统的使用率和实际价值。如果未能得到妥善解决,之前的辛苦工作恐将付之东流,甚至影响整个项目的成功。这篇文章并非纸上谈兵,而是源自作者在实际项目中的第一手经验。文章详细介绍了5种QueryTr...
Baihai_IDP
0回复
919浏览
LLM
RAG
检索增强生成
AI
解读 “Flash Cache” :减少辐射缓存反渲染偏差
一、惊爆背景与动机在计算机图形学的世界里,传统三维重建技术虽然基于体积场景表示,但在用于反渲染时,那计算复杂度简直让人头疼。而近期呢,有研究开始使用辐射缓存来模拟全局光照,本以为找到了救星,可谁能想到现有方法存在偏差,这就像一颗老鼠屎坏了一锅粥,严重影响了渲染质量和优化梯度。二、相关工作大揭秘1、逆渲染:这可是个神秘的魔法,旨在从一组图像中恢复场景属性,比如材料、光照和几何形状。想象一下,就像从...
智能交互引擎
0回复
675浏览
计算机图形
机器学习利器——决策树分类器深度解析
原创
本文将给出有关机器学习重要基础工具——决策树分类器的深度解析,并提供一个生成一棵简化型决策树的完整案例。简介决策树在机器学习中无处不在,因其直观的输出而备受喜爱。谁不喜欢简单的“ifthen”流程图?尽管它们很受欢迎,但令人惊讶的是,要找到一个清晰、循序渐进的解释来分析决策树是如何工作的,还是一项具有相当挑战性的任务。(实际上,我也很尴尬,我也不知道花了多长时间才真正理解决策树算法的工作原理。)所以...
51CTO内容精选
0回复
700浏览
机器学习
决策树
分类器算法
xLAM: 一个赋能AI agent系统的动作大模型家族
一、结论写在前面论文标题:xLAM:AFamilyofLargeActionModelstoEmpowerAIAgentSystems论文链接:https:arxiv.orgpdf2409.03215Models:https:huggingface.cocollectionsSalesforcexlammodels65f00e2a0a63bbcd1c2dade4GitHub:https:github.comSalesforceAIResearchxLAM介绍了xLAM系列,这是一组用于自主AIagent的大型动作模型。论文的模型参数范围从1B到8x22B,通过一个可扩展且灵活的数据管道进行训练,...
sbf_2000
0回复
814浏览
xLAM
系统
AI
大规模分布式 AI 模型训练系列—专家并行
一、背景之前的文章中我们详细介绍了大规模分布式训练中的数据并行(DataParallelism,DP)、张量并行(TensorParallelism,TP)和流水线并行(PipelineParallelism,PP)。这篇文章中我们继续介绍MoE中经常使用的专家并行(ExpertParallelism,EP),以及EP中涉及的相关All2All操作和优化手段等。二、引言2.1标准All2AllAlltoAll是集合通信库(比如NCCL)中另一种常见的通信原语,用于多个设备之间进行数据交换。AlltoAlll操作...
amei2000go
0回复
3402浏览
分布式
AI
模型
最新研究:大语言模型使用Json格式输出会降低模型性能吗?
精华
1.背景大语言模型在工业界应用的一个主要障碍就是大语言模型(LLMs)不遵循标准化输出格式。这种不一致性,使得输出解析变得更为复杂,也削弱了这些模型的可靠性。所以,大家普遍会采用结构化输出的方式来规避这一问题,也就是使用格式化限制,比如以标准化格式进行输出,比如:Json、XML等。这些限制可以通过多种方式来实现,比如指示模型遵循带有格式限制指令的指定格式,或者使用像JSON模式这样的标准解决方案。这些方案让LL...
大语言模型论文跟踪
0回复
1308浏览
大语言
模型
Json
如何获取高质量数据进行代码指令调优?
之前很多研究都是生成、发现、过滤高质量的通用指令微调数据,而大家对代码任务的越发关注,如何构建更好的代码指令调整数据也越发重要。下面给大家带来一篇筛选高质量代码指令微调数据的文章,主要基于指令的复杂性、回复质量和指令的多样性三个维度来进行样本的筛选,同时也指出了当前部分代码指令数据在HumanEval上存在严重的数据泄露。Paper:https:arxiv.orgabs2409.03810Github:https:github.combanksy23XCoderDataHF:http...
NLP工作站
0回复
863浏览
数据
代码
指令
3D人体重建新SOTA!清华&腾讯等重磅发布MagicMan:单一图像生成高质量人体新突破
文章链接:https:arxiv.orgpdf2408.14211git链接:https:thuhcsi.github.ioMagicMan亮点直击提出MagicMan,一种旨在从单一参考图像生成高质量多视角人像的方法,从而促进无缝的3D人体重建。提出了一种高效的混合多视角注意力机制,以生成更密集的多视角人像,同时保持更好的3D一致性。引入了几何感知的双分支结构,在RGB和法线领域同时进行生成,通过几何线索进一步增强多视角一致性。提出了一种迭代优化策略,逐步提高SMPLX姿...
angel
0回复
1126浏览
模型
3D
IPAdapter+再进化,可同时学习多个任务!Unity开源新思路:图像条件结合指令提示
精华
文章链接:https:arxiv.orgpdf2408.03209git链接:https:unityresearch.github.ioIPAdapterInstruct.github.iodemo链接:https:huggingface.cospacesunityIPAdapterInstruct亮点直击提出IPAdapterInstruct模型:结合自然图像条件与文本指令,灵活切换多种解释方式(如风格迁移、物体提取),简化任务处理。增强生成控制:改进传统图像条件方法,通过指令提示在同一条件图像下处理多种解释,提高生成控制精度。高效学习与灵活性...
angel
0回复
553浏览
图像生成
开源
优雅谈大模型:LangChain Vs. LlamaIndex
原创
实时了解业内动态,论文是最好的桥梁,专栏精选论文重点解读热点论文,围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。LlamaIndex和LangChain的对比其实是一个很复杂的话题,若需要用一句话来总结,LlamaIndex是数据之王,而Lang...
鲁班模锤1
0回复
892浏览
模型
机器人
助手
搜索引擎+GraphRAG+智能体,打造AI智能搜索
最近,人工智能领域涌现的新搜索引擎MindSearch正成为行业的新宠。这款开源的搜索引擎具备卓越的信息处理能力,能够在几分钟内完成人类需要数小时才能做到的工作,充分展现出AI在信息检索和整合方面的惊人潜力。本文带读者了解MindSearch的核心特性,看其如何领先于竞争对手;同时,文章中还会提供指南,指导如何在本地搭建这款AI搜索引擎。1MindSearch简介MindSearch是由上海人工智能实验室联合研发团队推出的开源AI搜索框架,...
小虎哦哦
0回复
1083浏览
搜索
引擎
智能体
一款由知识图谱引擎驱动的创新Agent框架
嘿,大家好!这里是一个专注于AI智能体的频道!今天给大家安利一个开源框架muAgentv2.0:KG引擎驱动的创新Agent框架。由LLM和EKG(EventicKnowledgeGraph,行业知识载体)驱动的全新Agent框架,协同利用MultiAgent、FunctionCall、CodeInterpreter等。通过基于画布的拖放和简单的文本编写,大语言模型可以辅助您在人工指导下执行各种复杂的SOP。它兼容市场上现有的框架,可以实现四大核心差异化技术功能:复杂推理、在线协作、...
探索AGI
0回复
1099浏览
图谱
引擎
驱动
定制你的AI助手:大型语言模型适配方法详解
这是一个由三部分组成的系列博客文章中的第一篇,主题是关于如何适配开源大型语言模型(LLMs)。在这篇文章中,我们将探讨适配LLMs到特定领域数据的各种方法。在第2部分,我们将讨论如何确定微调是否适合你的使用场景。在第3部分,我们将探讨一些整理优质训练数据集的经验法则。引言大型语言模型(LLMs)在大量语言任务和自然语言处理(NLP)基准测试中展现出了卓越的能力。基于这些"通用"模型的产品应用正在兴起。在这篇博客文章中,我们...
芝士AI吃鱼
0回复
919浏览
AI
语言
模型
暂无内容
1
64
65
66
67
68
69
70
71
72
客服