本论文第一作者倪赞林是清华大学自动化系2022级直博生,师从黄高副教授,主要研究方向为高效深度学习与图像生成。他曾在ICCV、CVPR、ECCV、ICLR等国际会议上发表多篇学术论文。近年来,AIGC领域发展十分迅猛。在计算机视觉中,扩散模型已经成为一种有效且常用的模型。相反,在自然语言处理领域,内容的生成通常通过使用Transformer去生成离散的token。受到这种差异的启发,越来越多的研究(以VQGAN作为典型代表)开始探索这种基...
2024-09-19 12:23:48 404浏览 0点赞 0回复 0收藏
最近,又一款国产AI神器吸引了众网友和圈内研究人员的关注!它就是全新的图像和视频生成控制工具——ControlNeXt,由思谋科技创始人、港科大讲座教授贾佳亚团队开发。X平台上知名AI博主「AK」推荐从命名来看,ControlNeXt「致敬」了斯坦福大学研究团队在2023年2月提出的ControlNet,通过引入一些额外的控制信号,让预训练的图像扩散模型(如StableDiffusion)根据预设的条件调整和优化,实现线稿生成全彩图,还能做语义分割、边...
2024-08-29 13:29:28 628浏览 0点赞 0回复 0收藏
自今年起,OpenAI的Sora和其他基于DiT的视频生成模型在AI领域掀起了又一波浪潮。但由于起步较晚,视频生成领域的很多基础设施都还有待完善。今年2月份,新加坡国立大学尤洋团队开源的一个名为OpenDiT的项目为训练和部署DiT模型打开了新思路。这是一个易于使用、快速且内存高效的系统,专门用于提高DiT应用程序的训练和推理效率,包括文本到视频生成和文本到图像生成。项目上线后非常受欢迎,尤洋团队也一直在继续这方...
2024-08-26 09:42:58 539浏览 0点赞 0回复 0收藏
论文一作兰宇时为南洋理工大学(NTU)博士生,导师为ChenChangeLoy。本科毕业于北京邮电大学,目前主要研究兴趣为基于神经渲染的3D生成模型、3D重建与编辑。在ECCV2024中,来自南洋理工大学SLab、上海AILab以及北京大学的研究者提出了一种原生3DLDM生成框架。具体来讲,他们针对现有原生3D生成模型可拓展性差、训练效率低、泛化性较差等问题,提出一种基于3DVAE和3DDiT的两阶段通用3D生成框架LatentNeuralfields3DDiffusion(LN3...
2024-08-26 09:39:52 580浏览 0点赞 0回复 0收藏
Sora一出,视频领域似乎已经进入了生成式AI时代。不过直到今天,我们仍然没有用上OpenAI的官方视频生成工具,等不及的人们已经开始寻找其他的方法。最近几周,一款开源的视频编辑工具Clapper引发了人们的关注。与很多科技公司提供的视频生成器不同,Clapper是一款开源AI故事可视化工具,于一年前推出原型。它的设计目的并非取代传统视频编辑器,或使用3D场景作为输入的现代AI编辑器。Clapper的理念是集合各类生成式AI技术,让任...
2024-08-13 13:30:55 430浏览 0点赞 0回复 0收藏
文章的第一作者是上海交通大学博士研究生赵峻图(主页:https:juntuzhao.run),他的研究方向包括计算机视觉和人工智能赋能的生命科学。此外,他还担任上海交通大学校田径队队长。文章的通讯作者为上海交通大学长聘教轨助理教授、博士生导师王德泉(主页:https:dequan.wang)。设想一下,如果让你画一幅“茶杯中的冰可乐”的图片,尽管茶杯与冰可乐的组合可能并不恰当,你仍然会很自然地先画出一个茶杯,然后画上冰块与可乐。...
2024-08-07 09:43:22 609浏览 0点赞 0回复 0收藏
目前,扩散模型能够生成多样化且高质量的图像或视频。此前,视频扩散模型采用UNet架构,主要侧重于合成有限时长(通常约为两秒)的视频,并且分辨率和纵横比受到固定限制。Sora的出现打破了这一限制,其采用DiffusionTransformer(DiT)架构,不仅擅长制作10到60秒的高质量视频,而且还因其生成不同分辨率、各种纵横比、且遵守实际物理定律的能力而脱颖而出。可以说Sora是DiT架构最有利的证明,然而,基于Transformer的扩散模型...
2024-08-05 09:13:53 809浏览 0点赞 0回复 0收藏
作者介绍:宋亦仁:新加坡国立大学ShowLab博士研究生,主要研究方向包括图像和视频生成,AI安全性。黄施捷:新加坡国立大学硕士二年级学生,目前在TiamatAI任算法工程师实习生,主要研究方向是视觉生成。目前在寻找2025fall博士入学机会。最近,lvmin带来了最新模型PaintsUNDO。这款AI生成工具可以根据图片还原整个绘画过程,整个AIGC社区都为之震撼。PaintsUNDO的演示demo。早在1个月前,NUS,SJTU,Tiamat等机构联合已经发布...
2024-07-30 11:38:25 712浏览 0点赞 0回复 0收藏
刚刚,大家期待已久的Llama3.1官方正式发布了!Meta官方发出了「开源引领新时代」的声音。在官方博客中,Meta表示:「直到今天,开源大语言模型在功能和性能方面大多落后于封闭模型。现在,我们正在迎来一个开源引领的新时代。我们公开发布MetaLlama3.1405B,我们认为这是世界上最大、功能最强大的开源基础模型。迄今为止,所有Llama版本的总下载量已超过3亿次,我们才刚刚开始。」Meta创始人、CEO扎克伯格也亲自写了篇长文《Op...
2024-07-24 09:43:53 765浏览 0点赞 0回复 0收藏
本工作由中科大认知智能全国重点实验室IEEEFellow陈恩红团队与华为诺亚方舟实验室完成。陈恩红教授团队深耕数据挖掘、机器学习领域,在顶级期刊与会议上发表多篇论文,谷歌学术论文引用超两万次。诺亚方舟实验室是华为公司从事人工智能基础研究的实验室,秉持理论研究与应用创新并重的理念,致力于推动人工智能领域的技术创新和发展。数据是大语言模型(LLMs)成功的基石,但并非所有数据都有益于模型学习。直觉上,高质量的样...
2024-07-23 09:45:03 839浏览 0点赞 0回复 0收藏
近日,MITCSAIL的一个研究团队(一作为MIT在读博士陈博远)成功地将全序列扩散模型与下一token模型的强大能力统合到了一起,提出了一种训练和采样范式:DiffusionForcing(DF)。论文标题:DiffusionForcing:NexttokenPredictionMeetsFullSequenceDiffusion论文地址:https:arxiv.orgpdf2407.01392项目网站:https:boyuan.spacediffusionforcing代码地址:https:github.combuoyancy99diffusionforcing如下所示,扩散强制在一...
2024-07-23 09:32:25 584浏览 0点赞 0回复 0收藏
本文作者蒋楠是北京大学智能学院二年级博士生,指导教师朱毅鑫教授,与北京通用人工智能研究院黄思远博士联合开展研究工作。他的研究重点是人物交互理解和数字人的动作生成,并于ICCV,CVPR和ECCV等顶会发表多篇论文。近年来,人物动作生成的研究取得了显著的进展,在众多领域,如计算机视觉、计算机图形学、机器人技术以及人机交互等方面获得广泛的关注。然而,现有工作大多只关注动作本身,以场景和动作类别同时作为约束条件...
2024-07-12 08:35:54 1475浏览 0点赞 0回复 0收藏
ControlNet作者LvminZhang又开始整活了!这次瞄准绘画领域。新项目PaintsUndo刚上线不久,就收获1.4kstar(还在疯狂涨)。项目地址:https:github.comlllyasvielPaintsUNDO通过该项目,用户输入一张静态图像,PaintsUndo就能自动帮你生成整个绘画的全过程视频,从线稿到成品都有迹可循。绘制过程,线条变化多端甚是神奇,最终视频结果和原图像非常相似:我们再来看一个完整的绘画过程。PaintsUndo先是用简单的线条勾勒出人物主...
2024-07-12 08:27:37 1141浏览 0点赞 0回复 0收藏
本文共同第一作者简介:张逸骅:密歇根州立大学计算机系博士三年级学生,师从SijiaLiu教授,主要研究方向是大模型的安全、隐私和效率问题。李平治:本科毕业于中国科学技术大学,将于2024Fall博士入学北卡罗来纳大学教堂山分校,师从陈天龙教授,主要研究兴趣集中在高效机器学习和AI4Science领域。洪骏远:德州大学奥斯汀分校博后,导师是ZhangyangWang教授。博士毕业于密歇根州立大学,师从JiayuZhou教授,目前主要的研究方向...
2024-07-04 10:23:10 797浏览 0点赞 0回复 0收藏
沉睡了两千多年的兵马俑,苏醒了?一句秦腔开场,将我们带到了黄土高原。如果不是亲眼所见,很多观众可能难以想象,有生之年还能看到兵马俑和宝石Gem同台对唱《从军行》。「青海长云暗雪山,孤城遥望玉门关。」古调虽存音乐变,声音依旧动人情:这场表演背后的「AI复活召唤术」,叫做EMO,来自阿里巴巴通义实验室。仅仅一张照片、一个音频,EMO就能让静止形象变为惟妙惟肖的唱演视频,且精准卡点音频中的跌宕起伏、抑扬顿挫。...
2024-07-04 10:20:46 771浏览 0点赞 0回复 0收藏
本文介绍了一篇语言模型对齐研究的论文,由瑞士、英国、和法国的三所大学的博士生和GoogleDeepMind以及GoogleResearch的研究人员合作完成。其中,通讯作者TianlinLiu和MathieuBlondel分别来自瑞士巴塞尔大学和GoogleDeepMindParis。这篇论文已被ICML2024接收,并且入选为spotlightpresentation(仅占总投稿量的3.5%)。论文地址:https:openreview.netforumidn8g6WMxt09¬eIdE3VVDPVOPZ代码地址:https:github.comliutianlin012...
2024-07-01 13:17:50 1167浏览 0点赞 0回复 0收藏
OpenAI的Sora、StabilityAI的StableVideoDiffusion以及许多其他已经发布或未来将出现的文本生成视频模型,是继大语言模型(LLM)之后2024年最流行的AI趋势之一。在这篇博客中,作者将展示如何将从头开始构建一个小规模的文本生成视频模型,涵盖了从理解理论概念、到编写整个架构再到生成最终结果的所有内容。由于作者没有大算力的GPU,所以仅编写了小规模架构。以下是在不同处理器上训练模型所需时间的比较。作者表示,在CPU上运...
2024-07-01 09:33:26 824浏览 0点赞 0回复 0收藏
本文作者是来自OpenSearch中国研发团队的机器学习负责人杨扬博士以及机器学习工程师耿志超和管聪。OpenSearch是一个由亚马逊云科技发起的纯开源搜索和实时分析引擎项目。目前软件超过5亿下载量,社区在全球拥有70个以上的企业合作伙伴。自从大模型爆火以来,语义检索也逐渐成为一项热门技术。尤其是在RAG(retrievalaugmentedgeneration)应用中,检索结果的相关性直接决定了AI生成的最终效果。目前市面上绝大部分的语义检索实...
2024-07-01 09:22:05 923浏览 0点赞 0回复 0收藏
糖类是自然界中最丰富的有机物质,对生命至关重要。了解糖类如何在生理和病理过程中调节蛋白质,可以为解决关键的生物学问题和开发新的治疗方法提供机遇。然而,糖类分子的多样性和复杂性,对实验识别糖蛋白质结合以及相互作用的位点提出了挑战。在这里,中国科学院团队开发了一种深度学习模型DeepGlycanSite,它能够准确预测给定蛋白质结构上的糖结合位点。DeepGlycanSite将蛋白质的几何和进化特征融入具有Transformer架构的深...
2024-07-01 09:13:48 721浏览 0点赞 0回复 0收藏
文章第一作者为来自北京大学物理学院、即将加入人工智能研究院读博的胡逸。胡逸的导师为北京大学人工智能研究院助理教授、北京通用人工智能研究院研究员张牧涵,主要研究方向为图机器学习和大模型的推理和微调。论文地址:https:arxiv.orgabs2402.17709项目主页:https:github.comGraphPKUCaseorRule论文标题:CaseBasedorRuleBased:HowDoTransformersDotheMathCasebasedorrulebased尽管如ChatGPT这样的大语言模型(LargeLang...
2024-07-01 09:08:55 922浏览 0点赞 0回复 0收藏