51CTO首页
AI.x社区
博客
学堂
精品班
软考社区
免费课
企业培训
鸿蒙开发者社区
WOT技术大会
IT证书
公众号矩阵
移动端
短视频
免费课程
课程排行
直播课
软考学堂
全部课程
厂商认证
IT技术
25年5月软考
PMP项目管理
免费题库
在线学习
文章
资源
问答
课堂
专栏
直播
51CTO
鸿蒙开发者社区
51CTO技术栈
51CTO官微
51CTO学堂
51CTO博客
CTO训练营
鸿蒙开发者社区订阅号
51CTO软考
51CTO学堂APP
51CTO学堂企业版APP
鸿蒙开发者社区视频号
51CTO软考题库
AI.x社区
首页
文章
课堂
直播
评选
登录/注册
51CTO
中国优质的IT技术网站
51CTO博客
专业IT技术创作平台
51CTO学堂
IT职业在线教育平台
我的关注
全部帖子
默认
发布时间
热度
原创
精华
热门标签
AI
人工智能
智能体
清华推出首个通用城市时空预测模型UniST,零样本场景开箱即用|KDD2024
城市时空的预测,迎来GPT时刻。清华大学电子系城市科学与计算研究中心推出了第一个无需自然语言的纯时空通用模型——UniST,首次展示了纯时空模型本身的通用性和可扩展性,研究成果已被KDD2024接收。研究团队利用超过20个时空数据集、1.3亿+个时空样本点,构建了涵盖多个城市、不同领域、空间划分和时间分辨率等维度的城市时空数据,构建并训练了「oneforall」的时空通用模型——UniST。该模型是目前覆盖范围最广、统一性最强的...
Crystalcxt
0回复
1307浏览
模型
计算
如何使用Hugging Face Transformers为情绪分析微调BERT?
原创
情绪分析指用于判断文本中表达的情绪的自然语言处理(NLP)技术,它是客户反馈评估、社交媒体情绪跟踪和市场研究等现代应用背后的一项重要技术。情绪可以帮助企业及其他组织评估公众意见、提供改进的客户服务,并丰富产品或服务。BERT的全称是来自Transformers的双向编码器表示,这是一种语言处理模型,最初发布时通过了解上下文中的单词,提高NLP的先进水平,大大超越了之前的模型。事实证明,BERT的双向性(同时读取特定单词的左...
51CTO内容精选
0回复
1399浏览
自然语言处理
NLP
BERT
ShareGPT4V作者团队又一力作!百万高质量视频-字幕数据助力社区提升多模态大模型视频理解及生成能力
继Sora官宣之后,多模态大模型在视频生成方面的应用简直就像井喷一样涌现出来,LUMA、Gen3Alpha等视频生成模型展现了极佳质量的艺术风格和视频场景的细节雕刻能力,文生视频、图生视频的新前沿不断被扩展令大家惊喜不已,抱有期待。最近,来自中国科学技术大学、北京大学、上海AILab等团队的研究人员发布了引人瞩目的ShareGPT4Video系列,旨在提升视频理解和生成能力。论文链接:https:arxiv.orgabs2406.04325v1项目...
轻薄滴假象
0回复
1027浏览
视频
生成
超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA
本文作者来自于中国科学院大学LAMP实验室,其中第一作者赵毓钟是中国科学院大学的2023级博士生,共同一作刘峰是中国科学院大学2020级直博生。他们的主要研究方向是视觉语言模型和视觉目标感知。简介DynRefer通过模拟人类视觉认知过程,显著提升了区域级多模态识别能力。通过引入人眼的动态分辨率机制,DynRefer能够以单个模型同时完成区域识别、区域属性检测和区域字幕生成(regionlevelcaptioning)任务,并在上述任务都取得SO...
轻薄滴假象
0回复
871浏览
AI
识别
OpenAI 再不发布 Sora,就晚了
原创
出品51CTO技术栈(微信号:blog51cto)变天了!还记得OpenAI刚推出Sora时给人的惊艳感,但在文生视频领域,Sora想一家独大也没有那么简单。如今,越来越多表现不俗的替代方案已经出现。继LumaAI的DreamMachine首次亮相之后,RunwayML最近推出的Gen3Alpha也令人印象深刻。与此同时,快手推出了Kling(可灵),这一模型能够以每秒30帧的速度生成1080p高清分辨率的视频。图片Gen3Alpha经过视频和图像的训练,将为Runway的文字转视...
51CTO技术栈
0回复
1074浏览
OpenAI
Sora
视频
斯坦福学者提出Edu-ConvoKit:洞察课堂对话大数据!
教育数据中的课堂对话等信息包含了关于学生学习方式的大量洞察。但是,处理和分析这些数据是相当痛苦的。近日,斯坦福大学研究团队提出EduConvoKit,这是一个能够为你处理预处理、注释和分析的流程!用于规模化教育的语言工具令人感到兴奋,因为正在摆脱仅以标准化考试成绩衡量学习的过度简化观点......而转向以学生思维和教学法为基础的语言评估。仓库链接:https:github.comstanfordnlpeduconvokit来看看EduConvoKit的实际应...
AIGC最前线
0回复
785浏览
Edu-ConvoKit
GPT4
从零实现大模型-GPT2指令微调
原创
TheAnnotatedTransformer注释加量版TheAnnotatedGPT2注释加量版TheAnnotatedBERT注释加量版前面三篇文章实现了Transformer、BERT以及GPT2的预训练过程,也就是上图中的Stage1和Stage2,并通过打印数据信息可视化了预训练和推理过程。此时的GPT2虽然能预测下一个词,但并不能很好地跟随人类指令,如果想让它翻译就能翻译,想让它总结就能总结,接下来还要进行指令微调。本文我们基于此前的GPT2预训练模...
鱼虫子
0回复
1949浏览
大模型
GPT2
谷歌推出V2A,可为视频大模型自动匹配语音
谷歌Deepmind在官网推出了视频转音频模型V2A。用户可以用视频+文本提示的方式,通过V2A为视频模型自动匹配语音。例如,为紧张、恐怖、惊悚的片段自动匹配语音,可以进一步节省制作时间和提高效率。同时可以与谷歌的视频模型Veo相结合使用。目前,Sora、可灵、Gen3、DreamMachine等知名模型生成的视频没有任何声音,用户如果想使用这些视频还需要二次加工配音。但在嘴型、音轨匹配方面就比较麻烦,而V2A可以生成无限数量的音轨,...
Aceryt
0回复
1871浏览
谷歌
AI
CVPR 2024最佳论文奖公布!生成式AI成最大赢家
CVPR2024本次CVPR共有来自全球的2719篇论文被接收,录用率为23.6%,相较去年下降2.2%。可以看到,其他国内玩家也表现不俗,都有不少论文入选。比如像腾讯优图实验室,此前曝光称有20篇入选,覆盖多模态、人脸识别、视觉分割等多个方向。这周,CVPR2024在美国西雅图正在进行中。CVPR2024最佳论文奖一共两篇获奖。第一篇是RichHumanFeedbackforTexttoImageGeneration最近的文本到图像(T2I)生成模型,如StableDiffusion和Imagen...
angel
0回复
4107浏览
AI
生成
到底什么是视觉语言模型?(分类/训练/评估)
5月27日,Meta发布了VisionLanguageModel行业研究的综述论文《AnIntroductiontoVisionLanguageModeling》。全文干货满满,但篇幅过长,所以笔者把每一章节放到独立的文章中,方便对VLM领域感兴趣的同学们一边读一边翻译一边消化,觉得有用就一键三连吧本文只摘译精华部分,需要了解全文的请至文末跳转至原文链接阅读。楼主会用GPTs翻译形成初稿,然后自己精读后完成终稿,力求每一句话自己都能理解后再输出译文。引言近年来,语...
angel
0回复
3760浏览
模型
推理
上海交大&阿里巴巴推出虚拟试衣新里程碑式工作——AnyFit:任意场景、任意组合!
精华
文章链接:https:arxiv.orgpdf2405.18172工程链接:https:colorfulliyu.github.ioanyfitpage今天和大家一起学习的是一种名为AnyFit的新型虚拟试穿系统,旨在解决现有技术在处理不同场景和服饰组合时出现的衣物风格不匹配和质量下降问题。通过引入轻量级、可扩展的HydraBlock操作符和并行注意力机制,AnyFit能够有效地将多种服饰特征注入主网络,实现高保真度的试穿效果。此外,通过合成多个模型的残差和实施mask区域增强策略,A...
angel
0回复
1300浏览
虚拟
AI
清华、北大与微软推出Glyph-ByT5-v2:渲染高视觉美感文本,海报惊艳,媲美DALL-E3!
微软亚洲研究院、清华大学、北京大学、利物浦大学联合推出功能强大的定制多语言文本编码器GlyphByT5v2和功能强大的美观图形生成模型GlyphSDXLv2,它们可以支持10种不同语言的准确拼写。考虑到最新的DALLE3和Ideogram仍然难以完成多语言视觉文本渲染任务,该工作是一项重大进步。GlyphByT5v2+GlyphSDXLv2效果展示GlyphByT5v2+GlyphSDXLv2方法进行多语言视觉文本渲染的结果。分别在第1行、第2行、第3行、第4行和第5行展示了法语、...
PaperAgent
0回复
1990浏览
清华
北大
微软
OpenAI最新套娃嵌入模型分析:256维的MTEB效果超过1536维
精华
一月份,OpenAI发布了两种新的嵌入模型:textembedding3small和textembedding3large。这些模型采用套娃表示学习技术(MRL:MatryoshkaRepresentationLearning)进行训练,这使得开发者可以在嵌入中权衡性能和成本。什么是套娃表示学习?套娃表示学习是一种用于训练嵌入模型的技术。它允许在牺牲少量准确性的情况下换取更小的嵌入尺寸。因此,可以以更低的成本存储更多的信息,并更快地搜索它。嵌入通过从序列末尾移除维度,并且...
PaperAgent
0回复
1978浏览
OpenAI
模型
1536维
一场酣畅淋漓的关于大模型神奇能力形成机理的探讨
请帮助总结一下GEB这本书的核心思想,以及得到这个思想的思维工具《GEB:哥德尔、艾舍尔、巴赫——集异璧之大成》(Gödel,Escher,Bach:AnEternalGoldenBraid)是一本由道格拉斯·侯世达(DouglasHofstadter)撰写的著名著作。该书于1979年出版,涵盖了数学、艺术和音乐等多个领域,并融合了哲学和认知科学的思考。它的核心思想是:“集异璧,知无穷”。该书的核心思想可以总结为以下几个关键点:1.自指和形式系统:《GEB》探讨...
ceesoft
0回复
1433浏览
模型
机理
AI
Google团队对红队测试的最新贡献,STAR构建更安全AI语言模型的新途径
精华
红队测试已成为发现生成性人工智能(AI)系统中的缺陷、漏洞和风险的重要工具,包括大型语言模型和多模态生成模型。它被AI开发者用来向决策者和公众利益相关者提供保证,并且越来越多地被监管机构和其他负责维护公共安全的机构要求或强制执行。尽管红队测试的使用日益增加,但由于缺乏最佳实践共识,难以比较结果和建立标准,这阻碍了AI安全研究的进展,也使公众难以评估AI安全。AI红队测试中的一个常见挑战是确保风险表面的全...
xuxiangda
0回复
1265浏览
Google
STAR
AI
看AI如何大海捞针,探索LLM能力边界实战
关键链接视频介绍相关代码概览随着人工智能模型处理能力的增强,能够处理的上下文信息越来越多,达到百万级别的词汇量,对于这类长上下文的大型语言模型(LLMs)的研究兴趣也随之增长。在这些模型中,一个流行的测试方法是将一个事实(称为“针”)嵌入到大量的上下文信息(称为“干草堆”)中,然后测试模型是否能在这个上下文中找到并回答与这个事实相关的问题。通过这个方法我们能够评估并理解模型在处理长文本和检索信息方...
ermulong
0回复
1185浏览
AI
LLM
能力
聊聊Meta近期的推荐系统大模型
最近,Meta发表了两篇和推荐系统相关的大模型工作,这类工作不是讲NLP等领域的大模型应用到推荐系统,而是直接使用推荐系统的数据训练大模型。一直以来,阻碍CTR预估等模型朝大模型发展的一个阻碍是,这类模型并不存在像NLP、CV领域模型中的scalinglaw,即模型的效果随着模型尺寸增大、训练数据增加而效果提升,单纯增加模型尺寸看起来并不能提升效果。今天就跟大家讨论2篇近期Meta发表的大模型推荐系统工作,这两篇工作设计了...
海因斯DK
0回复
6624浏览
Meta
系统
大模型
没有标记数据集,如何做大模型指令微调?介绍一款有潜力的标记数据集生成模型
在构建大模型应用时,通常有两种方式来改进效果,一种是构建外部知识库,利用RAG来完成。但RAG并不是万能的,对于特定领域的LLM应用,以及无需示例,就能完成特定任务等场合就需要进行微调。然而,微调本身相较于RAG来讲,需要更多的算力资源和时间周期,但更大的瓶颈在于微调需要标记过的样本数据。这对于很多企业来讲,很难有这样高质量的数据积累,他们的数据通常是未经标记的,可能是一篇一篇的文章或者规章制度,并不是以...
Syrupup
0回复
2345浏览
数据集
指令微调
生成模型
通过多样本学习加速LLM应用开发
原创
本文通过将持续样本ICL与RAG比较,讨论了具有长上下文LLM的ICL,如何帮助产品团队创建原型和完整应用,而无需其他资源密集型且耗时的技术。在这短短几年内,大语言模型(LLM)已经从处理几千个token的水平发展到了能够驾驭数百万个token。其近乎无限的上下文窗口,正在为人类解锁更多新的应用,并以更简单方法实现各项自定义任务。根据卡内基梅隆大学(CarnegieMellonUniversity)和特拉维夫大学(TelAvivUniversity)研究人员最近的...
51CTO内容精选
0回复
1157浏览
LLM
大语言模型
应用开发
谷歌“另辟蹊径”,展示AI视频生音频最新进展,效果惊艳!网友:但有一个缺点
原创
编辑伊风出品51CTO技术栈(微信号:blog51cto)最近几周,文生视频领域正卷的风生水起。可灵和DreamMachine相继推出。而后者充满趣味性的文生视频功能更是开启一阵续写“meme”的狂潮。正当大家觉得文生视频的开路者Runway要一直沉寂下去的时候。Runway突然上演了一波“王者归来”。展示了商用级别的生成视频,让人难辨是不是AI生成。"一个悲伤的中年秃头男人变得快乐起来,因为一顶卷发假发和太阳镜突然落在了他的头上"。画质...
51CTO技术栈
0回复
1078浏览
谷歌
AI
视频
暂无内容
1
106
107
108
109
110
111
112
113
114
客服