51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
WOT技术大会
IT证书
公众号矩阵
移动端
短视频
免费课程
课程排行
直播课
软考学堂
全部课程
厂商认证
IT技术
25年5月软考
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
我的关注
全部帖子
默认
发布时间
热度
原创
精华
热门标签
AI
人工智能
智能体
大模型微调技巧 | 高质量指令数据筛选方法-MoDS
写在前面大家好,我是刘聪NLP。大模型时代,指令微调已经成了算法工程师们必不可少的技能。而在指令微调过程中,我们往往会从数据数量和数据质量两个维度来对模型进行调优。今天给大家带来一个新的方法MoDS,一种面向模型的指令数据选择方法《MoDS:ModelorientedDataSelectionforInstructionTuning》,核心是从数据质量、覆盖范围、必要性三个角度来对原始数据集进行数据过滤,最终获取对于不同模型的高质量数据集。并且相较于...
NLP工作站
0回复
1516浏览
大模型
微调
技巧
FlashAttention3:“苗条”的就是比较好!
原创
1.加速HopperGPU注意力机制是Transformer架构的核心能力,也是大型语言模型和长上下文应用的瓶颈。FlashAttention(和FlashAttention2)开创了一种通过最小化内存读写来加速GPU注意力的方法,现在大多数库都使用它来加速Transformer训练和推理。这导致了过去两年上下文LLM长度的大幅增加,从24K(GPT3,OPT)增加到128K(GPT4),甚至1M(Llama3)。然而,尽管取得了成功,但FlashAttention尚未利用现代硬件中的新功能,Flash...
鲁班模锤1
0回复
1481浏览
Transformer
架构
大型语言
基于Llama 3和LangChain,使用自然语言进行SQL查询
精华
在数据泛滥的今天,如何高效地从海量信息中提取有价值的洞察,已成为开发者面临的共同挑战。本文介绍一个创新项目——基于Streamlit的应用程序,它能够理解自然语言并直接与SQL数据库进行交互,从而简化数据分析流程。1环境设置在本项目中,我们选择PostgreSQL作为后端数据库。用户需自行安装并配置PostgreSQL,同时需要搭建Ollama环境以及OpenWebUI界面。具体的安装和配置步骤,建议参考相应的官方文档或社区指南进行操作。2创...
小虎哦哦
0回复
2397浏览
Llama 3
LangChain
SQL
Mixture-of-Agents系统,竟然如此简单!
嘿,大家好!这里是一个专注于AI智能体的频道!首先,让我们来聊聊LLM。这些模型通过在海量数据集上预训练,已经展现出了惊人的能力,无论是理解还是生成自然语言,它们都能做得很好。但问题来了,这些模型的规模和训练成本都很高,这让它们在实际应用中有点不切实际。这时候,MoA登场了!MoA通过利用多个LLM的集体优势,提供了一个创新的解决方案。想象一下,如果每个智能体都能贡献自己的一份力量,那么最终的输出结果将会多...
探索AGI
0回复
830浏览
系统
数据
LLM
MSRA:视觉生成六大技术问题
文生图、文生视频,视觉生成赛道火热,但仍存在亟需解决的问题。微软亚洲研究院研究员古纾旸对此进行了梳理,他认为视觉信号拆分是最本质的问题。生成模型的目标是拟合目标数据分布,然而,目标数据分布过于复杂,难以直接拟合。因此,往往需要将复杂的信号做拆分,拆分成多个简单的分布拟合问题,再分别求解。信号拆分方式的不同产生了不同的生成模型。此外,针对一些热点问题他也展开进行了分析,一共六大问题,例如diffusion...
Crystalcxt
0回复
571浏览
视觉生产
技术
Meta公司开源大数据模型SAM实战演练
原创
本文首先介绍Meta公司开发的开源图像分割模型SAM的架构,然后通过一个河流像素分割遥感任务的实战案例展示SAM模型应用开发涉及的关键技术与模型优势。引言当前,许多强大的开源基础模型的发布,加上微调技术的不断进步,已经带来了机器学习和人工智能的新范式。整体来看,这场革命的核心在于转换器模型(https:arxiv.orgpdf1706.03762)。虽然除了资金充足的公司之外,所有公司都曾经无法获得高精度的特定领域模型;但是如今,...
51CTO内容精选
0回复
1118浏览
大数据模型
机器学习
人工智能
思维树:利用大型语言模型深思熟虑地解决问题
原创
摘要:语言模型正越来越多地用于广泛任务中的一般问题解决,但在推理过程中,它们仍然局限于逐字级别、从左到右的决策过程。这意味着它们在需要探索、战略性前瞻,或初始决策起关键作用的任务中可能表现不佳。为了解决这些挑战,我们引入了一种新的语言模型推理框架——“思维树”(TreeofThoughts,ToT),它推广了流行的“链式思维”方法,通过提示语言模型并使其能够探索作为解决问题中间步骤的连贯文本单元(“思想”)。To...
AIRoobt
0回复
2179浏览
大模型
思维链
TextCoT:放大增强型多模态富文本图像理解
原创
精华
摘要:大型多模态模型(LargeMultimodalModels,LMMs)的出现引发了旨在利用其卓越推理能力的研究热潮。然而,在理解富含文本的图像方面,要充分发挥LMMs的潜力仍然存在挑战,现有的方法在有效处理高分辨率图像方面面临困难。为此,我们提出了TextCoT,这是一种针对富含文本图像理解的新颖连锁思维(ChainofThought)框架。TextCoT利用LMMs的图片标注能力来把握图像的整体情境,并利用其定位能力来检查局部文本区域,从而实现全局...
AIRoobt
0回复
1171浏览
大模型
思维链
图遇见大型语言模型:进展与未来方向的研究
原创
摘要:在现实世界的应用中,如引文网络、社交网络和生物数据等领域,图(graph)在表示和分析复杂关系方面起着至关重要的作用。最近,大型语言模型(LargeLanguageModels,LLMs)在众多领域取得了显著成功,并且也被应用于与图相关的任务中,以超越传统的基于图神经网络(GraphNeuralNetworks,GNNs)的方法,并实现了最先进的性能。本综述首先对现有整合LLMs与图的各类方法进行了全面回顾与分析。首先,我们提出了一种新的分类法...
AIRoobt
0回复
1720浏览
大模型
生成式AI智能革命至今:人机协同的三种模式与未来软件架构范式演进
随着人工智能技术的飞速发展,人机协同工作模式不断演进。本文将深入探讨嵌入(Embedding)、副驾驶(Copilot)和智能体(Agent)三种模式、未来软件架构范式演进,分析它们如何为不同领域的应用塑造AI的未来。一、嵌入(embedding)模式用户通过与AI进行语言交流,使用提示词来设定目标,然后AI协助用户完成这些目标。例如:普通用户向生成式AI输入提示词创作小说、音乐作品、3D内容等。在这种模式下,AI的作用相当于执行命令...
AIGC观察者
0回复
4842浏览
大模型
从做菜的角度来更形象的理解什么是大模型的参数,训练原理与过程,以及为什么要训练?
原创
在前面的大模型参数的文章中讲了什么是大模型的参数,以及大模型为什么要训练;不过那个讲的比较抽象,这里就用一个更形象的例子来解释一下大模型的参数到底是什么,以及训练的原理。01、大模型和厨师从我们使用者的角度来说,大模型就是一个黑盒,它需要输入,然后给出一个输出。如下图就是大模型的黑盒模型:而从我们使用上来看,基本上就是一个聊天框,然后我们输入文字图片视频等,然后大模型给我们一个输出。而这...
AI探索时代
0回复
1079浏览
大模型训练
你知道神经网络是怎么运作的吗?神经网络内部原理解析
原创
“神经网络就是一个具有输入和输出的黑盒”神经网络模型就是模仿人类大脑神经元传递的过程,从使用者的角度来说,神经网络就是一个具有输入和输出的黑盒模型。简化模型如下图:只需要设定特定的输入和输出格式,隐藏层可以根据不同的任务需求进行实现。01、神经网络模型神经网络主要由神经元构成,然后会根据任务复杂度,设计一个到多个网络层,网络层数越多,处理的问题越复杂。如下图所示,就是一个简单的神经网络模型图,具...
AI探索时代
0回复
877浏览
大模型
神经元
神经网络
给 「大模型初学者」 的 LLaMA 3 核心技术剖析
原创
精华
编者按:本文旨在带领读者深入了解LLaMA3的核心技术——使用RMSNorm进行预归一化、SwiGLU激活函数、旋转编码(RoPE)和字节对编码(BPE)算法。RMSNorm技术让模型能够识别文本中的重点,SwiGLU激活函数则如同“神笔”,让模型生成的文本更加突出重点且易于理解;RoPE赋予了模型处理序列中词语位置的灵活性,而BPE算法则有效提升了模型处理长文本的能力。从开发环境配置到项目逻辑梳理,各组件的介绍与构建,再到模型组件的整合...
Baihai_IDP
0回复
1164浏览
AI
LLMs
Llama 3
白海科技
2024年云中AI工程的三大关键趋势
原创
作者丨DanRowinski编译丨诺亚在过去的20年,创新为我们造就了众多转折点,于这些转折点处,全新的职业类别得以应运而生。回想一下,2006年亚马逊网络服务推出后,云端架构师与开发者的职位便顺势出现;伴随iPhone和Android的兴起,移动开发者成为了崭新的职业角色;当我们积累了充足的数据和计算能力,足以让神经网络运行时,机器学习工程师这一职业就此产生;而后,上述三种趋势相互交汇融合,数据科学家的职业开始引人注目。...
51CTO技术栈
0回复
1210浏览
AI
工程
趋势
“萝卜快跑”事件辟谣:武汉仅投放400多辆无人车;“萝卜”相关负责人揭秘AI新职业:“云代驾”!
原创
编辑言征出品51CTO技术栈(微信号:blog51cto)近日,一根“萝卜”在网上激动起了千层浪。乘客、网约车出租车老司机们甚至为此开启了“吐槽”模式。首先本来是一张流传出的网图,画面中显示:武汉投入了1000多辆无人驾驶车,这种车非常便宜,6公里只收4元钱,7×24小时运行,几个月订单就超过了500万单,被有乘客表示:都不需要考驾照了。当然图中无人驾驶车的主角,就是这几天大家热议不断的、百度旗下的萝卜快跑。图片此次热...
51CTO技术栈
0回复
3257浏览
AI
萝卜快跑
新职业
一分钟原画变3D角色,清华VAST成果入选图形学顶会SIGGRAPH
随便一张立绘都能生成游戏角色,任意IP快速三维化有新招了!来自清华大学和VAST的研究人员联合推出了CharacterGen——一种三维风格化人物生成框架。具体而言,CharacterGen采用两阶段生成模式,可在1分钟内从单图生成高质量的标准姿态三维人体。目前相关论文已入选计算机图形学顶会SIGGRAPH2024,且在社区引发了热烈讨论。CharacterGen开源后,已有玩家第一时间将其纳入了ComfyUI3D工作流。网友们搓手表示:迫不及待看到构建3D...
Crystalcxt
0回复
1186浏览
研究
模型
AI慢思考蒸馏进快思考,Llama2跃升至GPT-4水平,不写过程也能做对题
《思考快与慢》中人类的两种思考方式,属实是被Meta给玩明白了。研究人员通过把AI的“慢思考”结果蒸馏进“快思考”,让Llama2表现提升了257%,变得比GPT4还能打,同时还能降低推理成本。这里的快慢两种思考方式,指的就是2002年诺贝尔经济学奖得主丹尼尔·卡尼曼推广的系统1和系统2——简单说,系统1是简单无意识的直觉,速度更快;系统2则是复杂有意识的推理,准确性更强。Meta所做的“蒸馏”,就是用系统2生成数据,然后对用...
Crystalcxt
0回复
706浏览
AI
模型
OpenAI | Let’s Verify Step by Step详细解读
一、概述title:Let’sVerifyStepbyStep论文地址:https:arxiv.orgabs2305.20050代码:https:github.comopenaiprm800k1.1Motivation近期大模型的出现极大的提升了复杂问题的多步推理能力,例如可以通过逐步思考(CoT)改善推理任务,但是即使最先进的模型也会产生逻辑错误。如何训练一个更好的rewardmodel,来做大模型的alignment对齐研究也是一个具有挑战的问题。结果监督(只提供最终的结果作为监督信号)和过程监督(提供每...
arnoldzhw
0回复
1640浏览
OpenAI
Motivation
PRM
AI编程辅助 | 基于代码生成模型的实践
精华
一、编程辅助例子GitHubCopilot[1]基于OpenAI的Codex[2]模型(GPT3[3]的后代)实现,可以在代码编写的时候实时地提供代码补全建议和注释,并且在多个编辑器的插件市场都可以下载使用。不管是从Copilot官网上的例子,还是在互联网上搜索关于Copilot的使用案例,你都可以发现它比一般的代码补全工具更为先进和灵活,它不仅能补全代码,更能创造代码,通过理解使用者简单的自然语言指令,它能够按照这些指令直接构建代码片段,并且...
zhcs333
0回复
1457浏览
AI
编程
辅助
一文读懂大模型协作策略:Merge、Ensemble、Cooperate!
大型语言模型(LLMs)时代协作策略是一个新兴研究领域,协作策略可以分为三种主要方法:合并(Merging)、集成(Ensemble)和合作(Cooperation)。每个模型都有其独特的优势,这种多样性促进了这些模型之间的合作研究尽管LLMs通过ICL和指令跟随在各种任务上表现出强大的多样性,但不同的LLMs在训练语料库和模型架构上的差异导致它们在不同任务上有不同的优势和劣势,有效的协作可以发挥它们的综合潜力。对大型语言模型(LLM)...
PaperAgent
0回复
2164浏览
模型
协作
策略
暂无内容
1
92
93
94
95
96
97
98
99
100
客服