用AI提高AI的效率,它们就能变得像人类大脑一样高效?我们的大脑只用了20瓦的能量就能完成复杂思考,而现代AI系统却需要成排的高功率GPU和惊人的电力消耗。这种差距如何缩小?日本AI初创公司SakanaAI团队提出了一个大胆的愿景:利用AI本身来优化AI。他们开发的「AICUDA工程师」是这一理念的具体实践。「AICUDA工程师」是第一个用于全自动CUDA内核发现和优化的综合智能体框架。这种方法不仅开创性地将进化计算与大型语言模型相结...
众所周知,知识蒸馏技术当前正被大模型领域广泛使用,它可以在大幅压缩模型体量的同时保持一定的性能、降低模型时延、提升模型精度,与此同时还能对知识域进行集成和迁移。近日,苹果研究人员提出了一种蒸馏扩展定律(DistillationScalingLaws),基于计算预算及其在学生和教师之间的分配,我们现在开始可以估算蒸馏模型的性能了。图1.蒸馏扩展定律的外推。蒸馏扩展定律适用于一系列损失为LT的教师的弱学生模型(LS>2.3)。实线...
我们都知道,普通大模型的数学能力并不好,甚至可能会搞不清楚9.8和9.11哪个大。但随着o1、o3以及DeepSeekR1等推理模型的到来,情况正在发生变化。比如DeepSeekR1在竞赛数学基准AIME2024上达到了79.8%的准确度,成就了自己头号开源推理模型的地位。而根据OpenAI发布的数据,o3mini(high)在AIME2024上的准确度更是达到了87.3%,预计o3满血版的成绩还会更好。但即便如此,这些强大的推理模型却依然常常在一类看起来相当简单的数学...
DeepSeek引爆AI社区后,人们都在尝试本地部署和各领域应用,在新模型基础上持续改进的方向也被不断提出。与此同时,英伟达却在尝试用DeepSeek给大模型pipeline本身搞自动化。本周三,英伟达在博客中介绍了利用DeepSeekR1和推理时扩展技术来自动生成优化GPU内核的最新研究成果,效果异常的好。对此有人评价道:难不成英伟达在自拆护城河?也有人已经开始担心自己的工作会不会被AI代替了。随着AI大模型规模不断扩展,能力持续进步...
一、引言推理大语言模型(LLM),如OpenAI的o1系列、Google的Gemini、DeepSeek和QwenQwQ等,通过模拟人类推理过程,在多个专业领域已超越人类专家,并通过延长推理时间提高准确性。推理模型的核心技术包括强化学习(ReinforcementLearning)和推理规模(Inferencescaling)。主流的大模型强化学习算法,如DPO、PPO、GRPO等,通常需要在完整的思维链上进行微调,需要高质量数据、精确的奖励函数、快速反馈和在线迭代、以及大量的...
本论文第一作者倪赞林是清华大学自动化系2022级直博生,师从黄高副教授,主要研究方向为高效深度学习与图像生成。他曾在ICCV、CVPR、ECCV、ICLR等国际会议上发表多篇学术论文。近年来,AIGC领域发展十分迅猛。在计算机视觉中,扩散模型已经成为一种有效且常用的模型。相反,在自然语言处理领域,内容的生成通常通过使用Transformer去生成离散的token。受到这种差异的启发,越来越多的研究(以VQGAN作为典型代表)开始探索这种基...
2024-09-19 12:23:48 686浏览 0点赞 0回复 0收藏
最近,又一款国产AI神器吸引了众网友和圈内研究人员的关注!它就是全新的图像和视频生成控制工具——ControlNeXt,由思谋科技创始人、港科大讲座教授贾佳亚团队开发。X平台上知名AI博主「AK」推荐从命名来看,ControlNeXt「致敬」了斯坦福大学研究团队在2023年2月提出的ControlNet,通过引入一些额外的控制信号,让预训练的图像扩散模型(如StableDiffusion)根据预设的条件调整和优化,实现线稿生成全彩图,还能做语义分割、边...
2024-08-29 13:29:28 862浏览 0点赞 0回复 0收藏
自今年起,OpenAI的Sora和其他基于DiT的视频生成模型在AI领域掀起了又一波浪潮。但由于起步较晚,视频生成领域的很多基础设施都还有待完善。今年2月份,新加坡国立大学尤洋团队开源的一个名为OpenDiT的项目为训练和部署DiT模型打开了新思路。这是一个易于使用、快速且内存高效的系统,专门用于提高DiT应用程序的训练和推理效率,包括文本到视频生成和文本到图像生成。项目上线后非常受欢迎,尤洋团队也一直在继续这方...
2024-08-26 09:42:58 827浏览 0点赞 0回复 0收藏
论文一作兰宇时为南洋理工大学(NTU)博士生,导师为ChenChangeLoy。本科毕业于北京邮电大学,目前主要研究兴趣为基于神经渲染的3D生成模型、3D重建与编辑。在ECCV2024中,来自南洋理工大学SLab、上海AILab以及北京大学的研究者提出了一种原生3DLDM生成框架。具体来讲,他们针对现有原生3D生成模型可拓展性差、训练效率低、泛化性较差等问题,提出一种基于3DVAE和3DDiT的两阶段通用3D生成框架LatentNeuralfields3DDiffusion(LN3...
2024-08-26 09:39:52 946浏览 0点赞 0回复 0收藏
Sora一出,视频领域似乎已经进入了生成式AI时代。不过直到今天,我们仍然没有用上OpenAI的官方视频生成工具,等不及的人们已经开始寻找其他的方法。最近几周,一款开源的视频编辑工具Clapper引发了人们的关注。与很多科技公司提供的视频生成器不同,Clapper是一款开源AI故事可视化工具,于一年前推出原型。它的设计目的并非取代传统视频编辑器,或使用3D场景作为输入的现代AI编辑器。Clapper的理念是集合各类生成式AI技术,让任...
2024-08-13 13:30:55 746浏览 0点赞 0回复 0收藏
文章的第一作者是上海交通大学博士研究生赵峻图(主页:https:juntuzhao.run),他的研究方向包括计算机视觉和人工智能赋能的生命科学。此外,他还担任上海交通大学校田径队队长。文章的通讯作者为上海交通大学长聘教轨助理教授、博士生导师王德泉(主页:https:dequan.wang)。设想一下,如果让你画一幅“茶杯中的冰可乐”的图片,尽管茶杯与冰可乐的组合可能并不恰当,你仍然会很自然地先画出一个茶杯,然后画上冰块与可乐。...
2024-08-07 09:43:22 814浏览 0点赞 0回复 0收藏
目前,扩散模型能够生成多样化且高质量的图像或视频。此前,视频扩散模型采用UNet架构,主要侧重于合成有限时长(通常约为两秒)的视频,并且分辨率和纵横比受到固定限制。Sora的出现打破了这一限制,其采用DiffusionTransformer(DiT)架构,不仅擅长制作10到60秒的高质量视频,而且还因其生成不同分辨率、各种纵横比、且遵守实际物理定律的能力而脱颖而出。可以说Sora是DiT架构最有利的证明,然而,基于Transformer的扩散模型...
2024-08-05 09:13:53 1160浏览 0点赞 0回复 0收藏
作者介绍:宋亦仁:新加坡国立大学ShowLab博士研究生,主要研究方向包括图像和视频生成,AI安全性。黄施捷:新加坡国立大学硕士二年级学生,目前在TiamatAI任算法工程师实习生,主要研究方向是视觉生成。目前在寻找2025fall博士入学机会。最近,lvmin带来了最新模型PaintsUNDO。这款AI生成工具可以根据图片还原整个绘画过程,整个AIGC社区都为之震撼。PaintsUNDO的演示demo。早在1个月前,NUS,SJTU,Tiamat等机构联合已经发布...
2024-07-30 11:38:25 1058浏览 0点赞 0回复 0收藏
刚刚,大家期待已久的Llama3.1官方正式发布了!Meta官方发出了「开源引领新时代」的声音。在官方博客中,Meta表示:「直到今天,开源大语言模型在功能和性能方面大多落后于封闭模型。现在,我们正在迎来一个开源引领的新时代。我们公开发布MetaLlama3.1405B,我们认为这是世界上最大、功能最强大的开源基础模型。迄今为止,所有Llama版本的总下载量已超过3亿次,我们才刚刚开始。」Meta创始人、CEO扎克伯格也亲自写了篇长文《Op...
2024-07-24 09:43:53 1027浏览 0点赞 0回复 0收藏
本工作由中科大认知智能全国重点实验室IEEEFellow陈恩红团队与华为诺亚方舟实验室完成。陈恩红教授团队深耕数据挖掘、机器学习领域,在顶级期刊与会议上发表多篇论文,谷歌学术论文引用超两万次。诺亚方舟实验室是华为公司从事人工智能基础研究的实验室,秉持理论研究与应用创新并重的理念,致力于推动人工智能领域的技术创新和发展。数据是大语言模型(LLMs)成功的基石,但并非所有数据都有益于模型学习。直觉上,高质量的样...
2024-07-23 09:45:03 1170浏览 0点赞 0回复 0收藏
近日,MITCSAIL的一个研究团队(一作为MIT在读博士陈博远)成功地将全序列扩散模型与下一token模型的强大能力统合到了一起,提出了一种训练和采样范式:DiffusionForcing(DF)。论文标题:DiffusionForcing:NexttokenPredictionMeetsFullSequenceDiffusion论文地址:https:arxiv.orgpdf2407.01392项目网站:https:boyuan.spacediffusionforcing代码地址:https:github.combuoyancy99diffusionforcing如下所示,扩散强制在一...
2024-07-23 09:32:25 822浏览 0点赞 0回复 0收藏
本文作者蒋楠是北京大学智能学院二年级博士生,指导教师朱毅鑫教授,与北京通用人工智能研究院黄思远博士联合开展研究工作。他的研究重点是人物交互理解和数字人的动作生成,并于ICCV,CVPR和ECCV等顶会发表多篇论文。近年来,人物动作生成的研究取得了显著的进展,在众多领域,如计算机视觉、计算机图形学、机器人技术以及人机交互等方面获得广泛的关注。然而,现有工作大多只关注动作本身,以场景和动作类别同时作为约束条件...
2024-07-12 08:35:54 2058浏览 0点赞 0回复 0收藏
ControlNet作者LvminZhang又开始整活了!这次瞄准绘画领域。新项目PaintsUndo刚上线不久,就收获1.4kstar(还在疯狂涨)。项目地址:https:github.comlllyasvielPaintsUNDO通过该项目,用户输入一张静态图像,PaintsUndo就能自动帮你生成整个绘画的全过程视频,从线稿到成品都有迹可循。绘制过程,线条变化多端甚是神奇,最终视频结果和原图像非常相似:我们再来看一个完整的绘画过程。PaintsUndo先是用简单的线条勾勒出人物主...
2024-07-12 08:27:37 1447浏览 0点赞 0回复 0收藏
本文共同第一作者简介:张逸骅:密歇根州立大学计算机系博士三年级学生,师从SijiaLiu教授,主要研究方向是大模型的安全、隐私和效率问题。李平治:本科毕业于中国科学技术大学,将于2024Fall博士入学北卡罗来纳大学教堂山分校,师从陈天龙教授,主要研究兴趣集中在高效机器学习和AI4Science领域。洪骏远:德州大学奥斯汀分校博后,导师是ZhangyangWang教授。博士毕业于密歇根州立大学,师从JiayuZhou教授,目前主要的研究方向...
2024-07-04 10:23:10 1164浏览 0点赞 0回复 0收藏
沉睡了两千多年的兵马俑,苏醒了?一句秦腔开场,将我们带到了黄土高原。如果不是亲眼所见,很多观众可能难以想象,有生之年还能看到兵马俑和宝石Gem同台对唱《从军行》。「青海长云暗雪山,孤城遥望玉门关。」古调虽存音乐变,声音依旧动人情:这场表演背后的「AI复活召唤术」,叫做EMO,来自阿里巴巴通义实验室。仅仅一张照片、一个音频,EMO就能让静止形象变为惟妙惟肖的唱演视频,且精准卡点音频中的跌宕起伏、抑扬顿挫。...
2024-07-04 10:20:46 998浏览 0点赞 0回复 0收藏