51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
WOT技术大会
IT证书
公众号矩阵
移动端
短视频
免费课程
课程排行
直播课
软考学堂
全部课程
厂商认证
IT技术
25年5月软考
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
我的关注
全部帖子
默认
发布时间
热度
原创
精华
热门标签
AI
模型
大模型
打破视觉-语言预训练的瓶颈:新算法解决噪声和标注问题
精华
引言:探索视觉语言对比预训练中的噪声和低质量标注问题在视觉语言对比预训练中,噪声和标注质量被认为是影响训练效果的重要因素。本文通过深入研究和分析训练过程中的两个主要问题——错误的负样本对分配和低质量及多样性不足的标注——揭示了通过解决这些问题来提高训练质量的潜力尚未被完全实现。首先,我们研究了影响对比学习的噪声问题,即在一个批次中可能会发现语义相似甚至相同的图像标注被错误地视为负样本对。其次,...
AI论文解读
0回复
1151浏览
语言
预训练
噪声
撤出OpenAI后,苹果继续泼冷水:大模型不会推理。科技界炸锅:大模型只会检索拼凑答案
原创
社区头条
编辑言征出品51CTO技术栈(微信号:blog51cto)前沿的AI独角兽公司们正在花费所有精力使LLM更擅长推理。然而苹果最近却给他们泼了盆冷水。近期,苹果公司的一个六人研究团队最近发表了一篇题为《了解大型语言模型中数学推理的局限性》的论文,论文中各种基准测试,十分详实。不过最后的结论基本上就是想证明:当前的LLM无法推理。图片“当前的LLM无法执行真正的逻辑推理;他们从训练数据中复制推理步骤,“该论文中写道,其中还...
51CTO技术栈
0回复
693浏览
OpenAI
大模型
AGI
英伟达出手即王炸!重磅开源Nemotron大模型:击败GPT-4o、仅次于o1!
原创
社区头条
编译伊风出品51CTO技术栈(微信号:blog51cto)英伟达闷声干大事!什么炒作也没有,直接开源媲美GPT4o、仅次于o1的模型!图片英伟达(Nvidia)在周二悄然发布了一款新型人工智能模型,性能超越了行业领导者OpenAI和Anthropic的产品,这标志着公司人工智能战略的重大转变,并可能重新塑造该领域的竞争格局。这款名为Llama3.1Nemotron70BInstruct的模型悄无声息地出现在热门的人工智能平台HuggingFace上,凭借其在多个基准测试中...
51CTO技术栈
0回复
515浏览
OpenAI
大模型
检索
对连续概率分布的一个常见误解
原创
考虑下面这个连续概率分布的概率密度函数,它表示的是从A点到B点可能花费的时间。这是一个连续随机变量t取值区间为[1,5]的均匀分布,其概率密度函数可以表示成下面形式。那么,问题来了!Q)他从A点到达B点花费3分钟的概率P(T3)是多少?哇哦!上述答案都是错的,正确答案是:0。有的人可能会立马抗议,并表示为什么在掷色子中每个点的概率就是16呢?因为掷色子实验结果是离散的,离散随机变量的概率分布称为概率质量函数(PMF)...
鱼虫子
0回复
530浏览
连续概率
机器学习
为什么你会觉得大模型很难学?甚至学了好久还不知道大模型到底是个什么玩意?
原创
社区头条
“先从简单的开始,而不是从复杂的开始;简单意味着成就感,复杂意味着挫败感”理论是来自于现实中的实践结果,理论来自于实践,验证于实践;单纯的理论是没有生存空间的。为什么你觉得大模型很难?甚至觉得学不会大模型?原因就在于你太沉迷于理论,而忽略了实践的意义。大模型不是一个纯理论的科学大模型技术并不是一个纯粹的理论科学,而是一个具有较强实践性的实践科学。我们有很多人在学习大模型技术的过程中,觉得大模型...
AI探索时代
0回复
558浏览
大模型
大模型面经——MoE混合专家模型总结
原创
本篇将介绍MoE(MixtureofExperts,混合专家模型)相关面试题。以下是一个快捷目录:一、MoE介绍二、MoE出现的背景三、有哪些MoE模型四、介绍稀疏MoE层五、介绍门控网络或路由六、为什么门控网络要引入噪声呢七、如何均衡专家间的负载八、“专家”指什么九、专家的数量对预训练有何影响?十、什么是topK门控十一、MoE模型的主要特点十二、MoE和稠密模型的对比十三、MoE的优势十四、MoE的挑战十五、微调MoE的方法十六、MoE的并...
shizhi02
0回复
616浏览
大模型
MoE
多模态大模型中,多模态融合后怎样知道最终结果受哪种模态影响更大?
原创
本篇介绍多模态大模型中如何基于最终结果分析各模态的影响。具身智能被众多大佬看好,通往AGI的路最终肯定需要多个模态的大模型互相融合。多个模态配合好也是有可能去构建一个模拟现实的世界模型的。最近一直在研究和尝试多模态大模型在一些VQA领域的前瞻研究和实际落地部署问题,遇到一个值得思考的问题:如果当预测结果出问题的时候,怎么去溯源是哪个模态的数据出的问题呢?这个方向感觉探索的足够深入是可以发论文的。由...
shizhi02
0回复
512浏览
多模态
多模态大模型
大模型面经——Langchain总结
原创
本篇介绍Langchain相关面试题。本次将会分为上下两个部分,本篇章将会介绍前三个问题,下一次在将后三个问题补充完毕。以下是一个快捷目录:什么是LangChainLangChain包含哪些部分?LangChain中ChatMessageHistory是什么?介绍一下LangChainAgentLangChain如何Embedding&vectorstore?LangChain存在哪些问题及方法方案什么是LangChainLangChain是一个基于语言模型的框架,用于构建聊天机器人、生成式问答(GQA)、...
shizhi02
0回复
569浏览
大模型
Langchain
击败GPT-4o、仅次于o1!英伟达重磅开源超强大模型--Nemotron
精华
全球AI领导者英伟达(Nvidia)开源了超强大模型——Llama3.1Nemotron70BInstruct。根据测试数据显示,这个模型已经击败GPT4o、GPT4turbo、Gemma2、Gemini1.5、Claude3.5sonnet等140多个开闭源模型,仅次于OpenAI发布的最新模型o1。Nemotron的基础模型是基于Llama3.170B开发而成,这个没什么新奇。但在训练的过程使用了一种新的混合训练方法,将BradleyTerry和Regression一起用于训练奖励模型。值得一提的是,英伟达把Nemotron的...
Aceryt
0回复
1546浏览
模型
数据
UIUC提出InstructG2I:从多模态属性图合成图像,结合文本和图信息生成内容更丰富有趣!
今天给大家介绍的这项工作是伊利诺伊大学厄巴纳香槟分校的研究者们提出的一个新任务Graph2Image,其特点是通过调节图信息来合成图像,并引入了一种名为InstructG2I的新型图调节扩散模型来解决这个问题。在INSTRUCTG2I的工作中,研究者们开发了一种新方法来生成图像,这种方法不仅依赖于文本描述,还考虑到图中其他相关信息。想象一下,如果你要画一幅画,除了有一个简单的描述,比如“雪中的房子”,你还可以参考与这个房子相关...
angel
0回复
770浏览
模型
图像
2024年了,视频生成模型离通用世界模拟器还有多大差距?SOTA模型全面评估
文章链接:https:arxiv.orgpdf2410.05363项目链接:https:phygenbench123.github.io数据&代码:https:github.comOpenGVLabPhyGenBench亮点直击提出了PhyGenBench,它涵盖了广泛的明确物理现象和明确的物理定律。该基准可以全面衡量T2V模型是否理解直观物理学,并间接评估它们与世界模拟器能力之间的差距。提出了一个自动化评估框架PhyGenEval,克服了使用其他指标评估物理常识正确性的问题,并且在PhyGenBench上表现出与人类反馈...
angel
0回复
443浏览
AI
模型
大模型面经——LoRA最全总结
原创
LoRA面经搜集总结。大家的显卡都比较吃紧,LoRA家族越来越壮大,基于LoRA出现了各种各样的改进,最近比较火的一个改进版是dora,听大家反馈口碑也不错。基于PEFT的话用409024G显存也可以进行大模型的微调,所以LoRA家族这块还是很有研究和实际落地的潜力。LoRA整个系列分为两个部分:1、LoRA总述2、LoRA家族演进本篇开始介绍第一部分:LoRA总述,尽量以面经问题的形式提出并解答,下面是一个快捷目录。一、概念1.简单介绍一下Lo...
shizhi02
0回复
817浏览
大模型
LoRA
两难抉择:自己定制LLM代理还是使用现有LLM代理框架?
原创
社区头条
本文旨在帮助你在使用自己定制的LLM代理还是使用现有LLM代理框架之间作出正确的选择。简介首先,要感谢JohnGilhuly对本文的贡献。当下,人工智能代理暂时处在大休整时期。随着多个新的AI开发框架的不断出现和人们对该领域不断进行新的投资,现代人工智能代理正在克服不稳定的初始阶段,迅速取代RAG而成为实施重点。那么,2024年最终会成为什么样的年份呢?是自主人工智能系统接管我们人工来书写电子邮件、预订航班、处理数据,...
51CTO内容精选
0回复
726浏览
人工智能
LLM代理
LLM代理框架
阿里国际发布首个大规模商用翻译大模型Marco,效果超Google、DeepL等,全球开放!
原创
社区头条
编辑星璇出品51CTO技术栈(微信号:blog51cto)在AI调用量最高的场景之一——机器翻译,阿里国际的AI团队有了新进展。10月16日,阿里国际副总裁、AI负责人张凯夫在接受彭博社专访时表示,阿里国际最新研发的Marco翻译大模型,支持中、英、日、韩、西、法等15种全球主流语种。目前已在阿里国际AI官网Aidge上发布,面向全球用户开放使用。基于目前广泛使用的开源评测数据集Flores,Marco翻译大模型在BLEU自动评测指标上,领先于市...
51CTO技术栈
0回复
1468浏览
阿里国际
大模型
Marco
多模态-故障诊断 | 大核卷积开启视觉新纪元!
前言本期推出结合CVPR2022视觉顶会论文RepLKNet的多模态故障诊断创新模型,适合各种故障诊断领域、电能质量扰动信号、各种声信号、脑电信号等分类任务!创新模型还未发表!!!有小论文、毕业论文需求的不容错过!提供马尔可夫转换场MTF、递归图RP、格拉姆矩阵GAF、连续小波变换CWT、短时傅里叶变换STFT五种时频图像变换方法,可灵活替换多模态特征中的时频图像类型!1创新模型相关解释●数据集:CWRU西储大学轴承数据集●环境框...
Tang_Lan
0回复
762浏览
多模态
故障诊断
视觉
忘记Tool检索,拥抱全新Agent ToolGen!
社区头条
传统大模型工具调用的方法依赖于将工具描述作为上下文输入,这受到上下文长度的限制,并需要单独的、通常效率低下的检索机制。之前基于检索的方法与ToolGen之间的比较。以前的方法使用检索器根据相似性匹配检索相关工具,这些工具进一步被放入提示中供LLMs选择。ToolGen可以通过直接生成工具标记来检索工具。ToolGen也可以在不依赖任何外部检索器的情况下完成任务。为此,微软等提出ToolGen,这是一种将工具知识直接整合到LLM参...
PaperAgent
0回复
931浏览
Tool
检索
Agent
图解LLM-Agent大模型智能体
社区头条
LLMAgent大模型智能体热度空前,但智能体是什么、为什么、怎么办,行业还没有统一认知,典型的小学语文课本里“小马过河”的现实版。是什么一、OpenAI工程师LilianWeng的定义2023.6.23规划子目标和分解:将大型任务分解为更小的、可管理的子目标。反思和改进:对过去的行动进行自我批评和自我反省,从错误中学习。记忆短期记忆:上下文学习都是利用模型的短期记忆来学习。长期记忆:长期保留和回忆信息的能力。工具使用调用外部...
ceesoft
0回复
790浏览
LLM
Agent
大模型
人工智能与人类情感的交汇点:一致性评估方法的探索
精华
近来,人工智能(AI)的迅猛发展使其在情感生成和评估领域的应用逐渐成为研究热点。AI技术尤其是生成对抗网络(GANs)和变分自编码器(VAEs),在图像生成方面取得了显著进展。然而情感生成的复杂性和主观性一直是一个挑战。图像能够传达情感,但情感体验具有高度的个人主观性,尤其是在通过AI生成图像并试图传达特定情感时。10月13日arXiv发表的论文《LEVELOFAGREEMENTBETWEENEMOTIONSGENERATEDBYARTIFICIALINTELLIGENCEANDHUM...
xuxiangda
0回复
1925浏览
人工智能
人类情感
方法
LangChain应用开发指南-TruLens用量化对抗幻觉
精华
在AI的发展中,大规模语言模型已经取得了令人瞩目的成果,然而,随之而来的是模型质量和不确定性的问题。如何衡量和改进模型的质量,一直是我们面临的一个挑战。为了解决这些问题,我们将在这篇文章中,介绍LangChain框架和TruLens工具,它们将帮助我们评估模型的质量,提高模型质量,并能够用量化的方法对抗不确定。什么是TruLensTruLens是面向神经网络应用的质量评估工具,它可以帮助你使用反馈函数来客观地评估你的基于LLM(...
ermulong
0回复
736浏览
LangChain
量化
TruLens
清华大学最新发布:统一时序预测模型,上下文长度首次扩展至千级别,适用各类数据集
今天给大家介绍一篇清华大学的时间序列预测最新工作,提出了统一的Transformer时序预测模型,能同时处理单变量和多变量时序预测,并将时序预测的上下文长度首次扩充到千级别。论文标题:TIMERXL:LONGCONTEXTTRANSFORMERSFORUNIFIEDTIMESERIESFORECASTING下载地址:https:arxiv.orgpdf2410.04803v11.背景构建类似NLP领域的统一大模型是时序预测领域近期研究的焦点。虽然前序已经涌现很多工作,但是这些建模方法只能处理...
海因斯DK
0回复
1029浏览
清华大学
数据集
预测模型
暂无内容
1
47
48
49
50
51
52
53
54
55
客服