51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
WOT技术大会
IT证书
公众号矩阵
移动端
短视频
免费课程
课程排行
直播课
软考学堂
全部课程
厂商认证
IT技术
25年5月软考
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
我的关注
全部帖子
默认
发布时间
热度
原创
精华
热门标签
DeepSeek
AI
大模型
OpenAI 再不发布 Sora,就晚了
原创
出品51CTO技术栈(微信号:blog51cto)变天了!还记得OpenAI刚推出Sora时给人的惊艳感,但在文生视频领域,Sora想一家独大也没有那么简单。如今,越来越多表现不俗的替代方案已经出现。继LumaAI的DreamMachine首次亮相之后,RunwayML最近推出的Gen3Alpha也令人印象深刻。与此同时,快手推出了Kling(可灵),这一模型能够以每秒30帧的速度生成1080p高清分辨率的视频。图片Gen3Alpha经过视频和图像的训练,将为Runway的文字转视...
51CTO技术栈
0回复
1211浏览
OpenAI
Sora
视频
斯坦福学者提出Edu-ConvoKit:洞察课堂对话大数据!
教育数据中的课堂对话等信息包含了关于学生学习方式的大量洞察。但是,处理和分析这些数据是相当痛苦的。近日,斯坦福大学研究团队提出EduConvoKit,这是一个能够为你处理预处理、注释和分析的流程!用于规模化教育的语言工具令人感到兴奋,因为正在摆脱仅以标准化考试成绩衡量学习的过度简化观点......而转向以学生思维和教学法为基础的语言评估。仓库链接:https:github.comstanfordnlpeduconvokit来看看EduConvoKit的实际应...
AIGC最前线
0回复
952浏览
Edu-ConvoKit
GPT4
从零实现大模型-GPT2指令微调
原创
TheAnnotatedTransformer注释加量版TheAnnotatedGPT2注释加量版TheAnnotatedBERT注释加量版前面三篇文章实现了Transformer、BERT以及GPT2的预训练过程,也就是上图中的Stage1和Stage2,并通过打印数据信息可视化了预训练和推理过程。此时的GPT2虽然能预测下一个词,但并不能很好地跟随人类指令,如果想让它翻译就能翻译,想让它总结就能总结,接下来还要进行指令微调。本文我们基于此前的GPT2预训练模...
鱼虫子
0回复
2276浏览
大模型
GPT2
谷歌推出V2A,可为视频大模型自动匹配语音
谷歌Deepmind在官网推出了视频转音频模型V2A。用户可以用视频+文本提示的方式,通过V2A为视频模型自动匹配语音。例如,为紧张、恐怖、惊悚的片段自动匹配语音,可以进一步节省制作时间和提高效率。同时可以与谷歌的视频模型Veo相结合使用。目前,Sora、可灵、Gen3、DreamMachine等知名模型生成的视频没有任何声音,用户如果想使用这些视频还需要二次加工配音。但在嘴型、音轨匹配方面就比较麻烦,而V2A可以生成无限数量的音轨,...
Aceryt
0回复
2200浏览
谷歌
AI
CVPR 2024最佳论文奖公布!生成式AI成最大赢家
CVPR2024本次CVPR共有来自全球的2719篇论文被接收,录用率为23.6%,相较去年下降2.2%。可以看到,其他国内玩家也表现不俗,都有不少论文入选。比如像腾讯优图实验室,此前曝光称有20篇入选,覆盖多模态、人脸识别、视觉分割等多个方向。这周,CVPR2024在美国西雅图正在进行中。CVPR2024最佳论文奖一共两篇获奖。第一篇是RichHumanFeedbackforTexttoImageGeneration最近的文本到图像(T2I)生成模型,如StableDiffusion和Imagen...
angel
0回复
4456浏览
AI
生成
到底什么是视觉语言模型?(分类/训练/评估)
5月27日,Meta发布了VisionLanguageModel行业研究的综述论文《AnIntroductiontoVisionLanguageModeling》。全文干货满满,但篇幅过长,所以笔者把每一章节放到独立的文章中,方便对VLM领域感兴趣的同学们一边读一边翻译一边消化,觉得有用就一键三连吧本文只摘译精华部分,需要了解全文的请至文末跳转至原文链接阅读。楼主会用GPTs翻译形成初稿,然后自己精读后完成终稿,力求每一句话自己都能理解后再输出译文。引言近年来,语...
angel
0回复
4412浏览
模型
推理
上海交大&阿里巴巴推出虚拟试衣新里程碑式工作——AnyFit:任意场景、任意组合!
精华
文章链接:https:arxiv.orgpdf2405.18172工程链接:https:colorfulliyu.github.ioanyfitpage今天和大家一起学习的是一种名为AnyFit的新型虚拟试穿系统,旨在解决现有技术在处理不同场景和服饰组合时出现的衣物风格不匹配和质量下降问题。通过引入轻量级、可扩展的HydraBlock操作符和并行注意力机制,AnyFit能够有效地将多种服饰特征注入主网络,实现高保真度的试穿效果。此外,通过合成多个模型的残差和实施mask区域增强策略,A...
angel
0回复
1499浏览
虚拟
AI
清华、北大与微软推出Glyph-ByT5-v2:渲染高视觉美感文本,海报惊艳,媲美DALL-E3!
微软亚洲研究院、清华大学、北京大学、利物浦大学联合推出功能强大的定制多语言文本编码器GlyphByT5v2和功能强大的美观图形生成模型GlyphSDXLv2,它们可以支持10种不同语言的准确拼写。考虑到最新的DALLE3和Ideogram仍然难以完成多语言视觉文本渲染任务,该工作是一项重大进步。GlyphByT5v2+GlyphSDXLv2效果展示GlyphByT5v2+GlyphSDXLv2方法进行多语言视觉文本渲染的结果。分别在第1行、第2行、第3行、第4行和第5行展示了法语、...
PaperAgent
0回复
2234浏览
清华
北大
微软
OpenAI最新套娃嵌入模型分析:256维的MTEB效果超过1536维
精华
一月份,OpenAI发布了两种新的嵌入模型:textembedding3small和textembedding3large。这些模型采用套娃表示学习技术(MRL:MatryoshkaRepresentationLearning)进行训练,这使得开发者可以在嵌入中权衡性能和成本。什么是套娃表示学习?套娃表示学习是一种用于训练嵌入模型的技术。它允许在牺牲少量准确性的情况下换取更小的嵌入尺寸。因此,可以以更低的成本存储更多的信息,并更快地搜索它。嵌入通过从序列末尾移除维度,并且...
PaperAgent
0回复
2674浏览
OpenAI
模型
1536维
一场酣畅淋漓的关于大模型神奇能力形成机理的探讨
请帮助总结一下GEB这本书的核心思想,以及得到这个思想的思维工具《GEB:哥德尔、艾舍尔、巴赫——集异璧之大成》(Gödel,Escher,Bach:AnEternalGoldenBraid)是一本由道格拉斯·侯世达(DouglasHofstadter)撰写的著名著作。该书于1979年出版,涵盖了数学、艺术和音乐等多个领域,并融合了哲学和认知科学的思考。它的核心思想是:“集异璧,知无穷”。该书的核心思想可以总结为以下几个关键点:1.自指和形式系统:《GEB》探讨...
ceesoft
0回复
1654浏览
模型
机理
AI
Google团队对红队测试的最新贡献,STAR构建更安全AI语言模型的新途径
精华
红队测试已成为发现生成性人工智能(AI)系统中的缺陷、漏洞和风险的重要工具,包括大型语言模型和多模态生成模型。它被AI开发者用来向决策者和公众利益相关者提供保证,并且越来越多地被监管机构和其他负责维护公共安全的机构要求或强制执行。尽管红队测试的使用日益增加,但由于缺乏最佳实践共识,难以比较结果和建立标准,这阻碍了AI安全研究的进展,也使公众难以评估AI安全。AI红队测试中的一个常见挑战是确保风险表面的全...
xuxiangda
0回复
1480浏览
Google
STAR
AI
看AI如何大海捞针,探索LLM能力边界实战
关键链接视频介绍相关代码概览随着人工智能模型处理能力的增强,能够处理的上下文信息越来越多,达到百万级别的词汇量,对于这类长上下文的大型语言模型(LLMs)的研究兴趣也随之增长。在这些模型中,一个流行的测试方法是将一个事实(称为“针”)嵌入到大量的上下文信息(称为“干草堆”)中,然后测试模型是否能在这个上下文中找到并回答与这个事实相关的问题。通过这个方法我们能够评估并理解模型在处理长文本和检索信息方...
ermulong
0回复
1332浏览
AI
LLM
能力
聊聊Meta近期的推荐系统大模型
最近,Meta发表了两篇和推荐系统相关的大模型工作,这类工作不是讲NLP等领域的大模型应用到推荐系统,而是直接使用推荐系统的数据训练大模型。一直以来,阻碍CTR预估等模型朝大模型发展的一个阻碍是,这类模型并不存在像NLP、CV领域模型中的scalinglaw,即模型的效果随着模型尺寸增大、训练数据增加而效果提升,单纯增加模型尺寸看起来并不能提升效果。今天就跟大家讨论2篇近期Meta发表的大模型推荐系统工作,这两篇工作设计了...
海因斯DK
0回复
7719浏览
Meta
系统
大模型
没有标记数据集,如何做大模型指令微调?介绍一款有潜力的标记数据集生成模型
在构建大模型应用时,通常有两种方式来改进效果,一种是构建外部知识库,利用RAG来完成。但RAG并不是万能的,对于特定领域的LLM应用,以及无需示例,就能完成特定任务等场合就需要进行微调。然而,微调本身相较于RAG来讲,需要更多的算力资源和时间周期,但更大的瓶颈在于微调需要标记过的样本数据。这对于很多企业来讲,很难有这样高质量的数据积累,他们的数据通常是未经标记的,可能是一篇一篇的文章或者规章制度,并不是以...
Syrupup
0回复
2984浏览
数据集
指令微调
生成模型
通过多样本学习加速LLM应用开发
原创
本文通过将持续样本ICL与RAG比较,讨论了具有长上下文LLM的ICL,如何帮助产品团队创建原型和完整应用,而无需其他资源密集型且耗时的技术。在这短短几年内,大语言模型(LLM)已经从处理几千个token的水平发展到了能够驾驭数百万个token。其近乎无限的上下文窗口,正在为人类解锁更多新的应用,并以更简单方法实现各项自定义任务。根据卡内基梅隆大学(CarnegieMellonUniversity)和特拉维夫大学(TelAvivUniversity)研究人员最近的...
51CTO内容精选
0回复
1371浏览
LLM
大语言模型
应用开发
谷歌“另辟蹊径”,展示AI视频生音频最新进展,效果惊艳!网友:但有一个缺点
原创
编辑伊风出品51CTO技术栈(微信号:blog51cto)最近几周,文生视频领域正卷的风生水起。可灵和DreamMachine相继推出。而后者充满趣味性的文生视频功能更是开启一阵续写“meme”的狂潮。正当大家觉得文生视频的开路者Runway要一直沉寂下去的时候。Runway突然上演了一波“王者归来”。展示了商用级别的生成视频,让人难辨是不是AI生成。"一个悲伤的中年秃头男人变得快乐起来,因为一顶卷发假发和太阳镜突然落在了他的头上"。画质...
51CTO技术栈
0回复
1280浏览
谷歌
AI
视频
AI生图可“量身定制”了,华为&清华联手打造个性化多模态生成方法PMG
苹果OpenAI官宣合作,GPT4o加持Siri,让AI个性化生成赛道热度飙升。其实,国内已有相关研究,一项基于大模型的个性化多模态内容生成技术,直接可让AI学会为用户“量身定制”输出。例如在聊天软件中生成表情包,输入都是:我通过了,很开心!配备了个性化生成技术的聊天软件可以识别当前用户想表达的情绪并考虑用户的个性化偏好,自动生成表情库里没有的多个笑脸猫表情候选供用户点击使用:△图1个性化生成能够生成符合用户...
Crystalcxt
0回复
1037浏览
AI
生图
微软研究院MRP:大模型动态选择最佳解题策略的元推理提示,比CoT、ToT更有效
大型语言模型(LLMs)在自然语言理解和生成方面表现出色,但面对现实世界问题的多样性和复杂性,单一静态方法的推理能力有限。现有的推理技术,如思维链(ChainofThoughts)、思维树(TreeofThoughts)等,虽然在特定任务上有所提升,但未能在不同任务中持续实现最佳性能。人类在认知过程中通过元推理(metareasoning)动态调整策略,以高效分配认知资源。受此启发,提出了元推理提示(MetaReasoningPrompting,MRP),以赋予LLM...
PaperAgent
0回复
2396浏览
MRP
模型
ToT
Advanced RAG 08:使用 Self-RAG 打造高质量、可追溯的 RAG System
原创
精华
编者按:RAG技术通过检索并利用外部知识源,能够较为有效地提升生成内容的准确性和多样性。然而,经典RAG流程也存在一些不足,例如不必要的检索会浪费计算资源,并可能引入无关内容或错误信息,影响生成质量。本文介绍了SelfRAG这一技术,通过引入ReflectionTokens,语言模型能够根据具体需求动态决定是否检索外部知识,从而大大减少了不必要的检索操作。与此同时,SelfRAG通过特殊的训练流程,使生成的内容不仅通顺自然,与事...
Baihai_IDP
0回复
1525浏览
RAG
AI
Agentic RAG 与图任务编排
一个朴素的RAG系统流程是这样的:先由用户提出问题,然后系统基于用户提问进行召回,对召回结果进行重排序,最后拼接提示词后送给LLM生成答案。一部分简单场景下,朴素的RAG已经可以满足用户意图明确的场景的要求,因为答案已经包含在检索出来的结果中,只要交给LLM即可。然而在更多的情况下用户意图并不明确,无法直接通过检索找到答案,例如一些针对多文档的总结类提问需要进行多步推理(Reasoning)等等。这类场景就需要引入Ag...
Aceryt
0回复
1575浏览
系统
编排
暂无内容
1
129
130
131
132
133
134
135
136
137
客服