公众号矩阵

移动端

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

轻薄滴假象

LV.6

这个用户很懒，还没有个人简介

帖子 150

声望 1098

关注 0

粉丝 0

社区头条作者

私信

关注

主帖 150

回帖

全球首个AI CUDA工程师来了！将PyTorch原生实现提速10-100倍

精华

用AI提高AI的效率，它们就能变得像人类大脑一样高效？我们的大脑只用了20瓦的能量就能完成复杂思考，而现代AI系统却需要成排的高功率GPU和惊人的电力消耗。这种差距如何缩小？日本AI初创公司SakanaAI团队提出了一个大胆的愿景：利用AI本身来优化AI。他们开发的「AICUDA工程师」是这一理念的具体实践。「AICUDA工程师」是第一个用于全自动CUDA内核发现和优化的综合智能体框架。这种方法不仅开创性地将进化计算与大型语言模型相结...

21h前 142浏览 0点赞 0回复 0收藏

苹果也在蒸馏大模型，给出了蒸馏Scaling Laws

众所周知，知识蒸馏技术当前正被大模型领域广泛使用，它可以在大幅压缩模型体量的同时保持一定的性能、降低模型时延、提升模型精度，与此同时还能对知识域进行集成和迁移。近日，苹果研究人员提出了一种蒸馏扩展定律（DistillationScalingLaws），基于计算预算及其在学生和教师之间的分配，我们现在开始可以估算蒸馏模型的性能了。图1.蒸馏扩展定律的外推。蒸馏扩展定律适用于一系列损失为LT的教师的弱学生模型（LS>2.3）。实线...

7天前 289浏览 0点赞 0回复 0收藏

啊！DeepSeek-R1、o3-mini能解奥数题却算不了多位数乘法？

精华

我们都知道，普通大模型的数学能力并不好，甚至可能会搞不清楚9.8和9.11哪个大。但随着o1、o3以及DeepSeekR1等推理模型的到来，情况正在发生变化。比如DeepSeekR1在竞赛数学基准AIME2024上达到了79.8%的准确度，成就了自己头号开源推理模型的地位。而根据OpenAI发布的数据，o3mini(high)在AIME2024上的准确度更是达到了87.3%，预计o3满血版的成绩还会更好。但即便如此，这些强大的推理模型却依然常常在一类看起来相当简单的数学...

7天前 390浏览 0点赞 0回复 0收藏

DeepSeek R1不编程就能生成GPU内核，比熟练工程师好，惊到了英伟达

DeepSeek引爆AI社区后，人们都在尝试本地部署和各领域应用，在新模型基础上持续改进的方向也被不断提出。与此同时，英伟达却在尝试用DeepSeek给大模型pipeline本身搞自动化。本周三，英伟达在博客中介绍了利用DeepSeekR1和推理时扩展技术来自动生成优化GPU内核的最新研究成果，效果异常的好。对此有人评价道：难不成英伟达在自拆护城河？也有人已经开始担心自己的工作会不会被AI代替了。随着AI大模型规模不断扩展，能力持续进步...

8天前 284浏览 0点赞 0回复 0收藏

8卡32B模型超越o1预览版、DeepSeek V3，普林斯顿、北大提出层次化RL推理新范式

一、引言推理大语言模型（LLM），如OpenAI的o1系列、Google的Gemini、DeepSeek和QwenQwQ等，通过模拟人类推理过程，在多个专业领域已超越人类专家，并通过延长推理时间提高准确性。推理模型的核心技术包括强化学习（ReinforcementLearning）和推理规模（Inferencescaling）。主流的大模型强化学习算法，如DPO、PPO、GRPO等，通常需要在完整的思维链上进行微调，需要高质量数据、精确的奖励函数、快速反馈和在线迭代、以及大量的...

9天前 289浏览 0点赞 0回复 0收藏

ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略

本论文第一作者倪赞林是清华大学自动化系2022级直博生，师从黄高副教授，主要研究方向为高效深度学习与图像生成。他曾在ICCV、CVPR、ECCV、ICLR等国际会议上发表多篇学术论文。近年来，AIGC领域发展十分迅猛。在计算机视觉中，扩散模型已经成为一种有效且常用的模型。相反，在自然语言处理领域，内容的生成通常通过使用Transformer去生成离散的token。受到这种差异的启发，越来越多的研究（以VQGAN作为典型代表）开始探索这种基...

2024-09-19 12:23:48 686浏览 0点赞 0回复 0收藏

视频生成控制提升几十倍，新一代轻量级ControlNeXt火了，贾佳亚团队正挑战Scaling Law

最近，又一款国产AI神器吸引了众网友和圈内研究人员的关注！它就是全新的图像和视频生成控制工具——ControlNeXt，由思谋科技创始人、港科大讲座教授贾佳亚团队开发。X平台上知名AI博主「AK」推荐从命名来看，ControlNeXt「致敬」了斯坦福大学研究团队在2023年2月提出的ControlNet，通过引入一些额外的控制信号，让预训练的图像扩散模型（如StableDiffusion）根据预设的条件调整和优化，实现线稿生成全彩图，还能做语义分割、边...

2024-08-29 13:29:28 862浏览 0点赞 0回复 0收藏

视频生成要有自己的系统！尤洋团队历时半年开源VideoSys

精华

自今年起，OpenAI的Sora和其他基于DiT的视频生成模型在AI领域掀起了又一波浪潮。但由于起步较晚，视频生成领域的很多基础设施都还有待完善。今年2月份，新加坡国立大学尤洋团队开源的一个名为OpenDiT的项目为训练和部署DiT模型打开了新思路。这是一个易于使用、快速且内存高效的系统，专门用于提高DiT应用程序的训练和推理效率，包括文本到视频生成和文本到图像生成。项目上线后非常受欢迎，尤洋团队也一直在继续这方...

2024-08-26 09:42:58 827浏览 0点赞 0回复 0收藏

ECCV 2024 | 引入DiT的原生3D通用框架，适用任意神经场、秒级生成

论文一作兰宇时为南洋理工大学（NTU）博士生，导师为ChenChangeLoy。本科毕业于北京邮电大学，目前主要研究兴趣为基于神经渲染的3D生成模型、3D重建与编辑。在ECCV2024中，来自南洋理工大学SLab、上海AILab以及北京大学的研究者提出了一种原生3DLDM生成框架。具体来讲，他们针对现有原生3D生成模型可拓展性差、训练效率低、泛化性较差等问题，提出一种基于3DVAE和3DDiT的两阶段通用3D生成框架LatentNeuralﬁelds3DDiffusion(LN3...

2024-08-26 09:39:52 946浏览 0点赞 0回复 0收藏

开源AI视频工具，你只需要当导演，HuggingFace工程师打造

Sora一出，视频领域似乎已经进入了生成式AI时代。不过直到今天，我们仍然没有用上OpenAI的官方视频生成工具，等不及的人们已经开始寻找其他的方法。最近几周，一款开源的视频编辑工具Clapper引发了人们的关注。与很多科技公司提供的视频生成器不同，Clapper是一款开源AI故事可视化工具，于一年前推出原型。它的设计目的并非取代传统视频编辑器，或使用3D场景作为输入的现代AI编辑器。Clapper的理念是集合各类生成式AI技术，让任...

2024-08-13 13:30:55 746浏览 0点赞 0回复 0收藏

AI画家的「滑铁卢」：为什么冰可乐不愿意住进茶杯里？

精华

文章的第一作者是上海交通大学博士研究生赵峻图（主页：https:juntuzhao.run），他的研究方向包括计算机视觉和人工智能赋能的生命科学。此外，他还担任上海交通大学校田径队队长。文章的通讯作者为上海交通大学长聘教轨助理教授、博士生导师王德泉（主页：https:dequan.wang）。设想一下，如果让你画一幅“茶杯中的冰可乐”的图片，尽管茶杯与冰可乐的组合可能并不恰当，你仍然会很自然地先画出一个茶杯，然后画上冰块与可乐。...

2024-08-07 09:43:22 814浏览 0点赞 0回复 0收藏

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

目前，扩散模型能够生成多样化且高质量的图像或视频。此前，视频扩散模型采用UNet架构，主要侧重于合成有限时长（通常约为两秒）的视频，并且分辨率和纵横比受到固定限制。Sora的出现打破了这一限制，其采用DiffusionTransformer（DiT）架构，不仅擅长制作10到60秒的高质量视频，而且还因其生成不同分辨率、各种纵横比、且遵守实际物理定律的能力而脱颖而出。可以说Sora是DiT架构最有利的证明，然而，基于Transformer的扩散模型...

2024-08-05 09:13:53 1160浏览 0点赞 0回复 0收藏

只要一张图就能「还原」绘画过程，这篇论文比爆火的Paints-UNDO实现得更早

精华

作者介绍：宋亦仁：新加坡国立大学ShowLab博士研究生，主要研究方向包括图像和视频生成，AI安全性。黄施捷：新加坡国立大学硕士二年级学生，目前在TiamatAI任算法工程师实习生，主要研究方向是视觉生成。目前在寻找2025fall博士入学机会。最近，lvmin带来了最新模型PaintsUNDO。这款AI生成工具可以根据图片还原整个绘画过程，整个AIGC社区都为之震撼。PaintsUNDO的演示demo。早在1个月前，NUS，SJTU，Tiamat等机构联合已经发布...

2024-07-30 11:38:25 1058浏览 0点赞 0回复 0收藏

最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

精华

刚刚，大家期待已久的Llama3.1官方正式发布了！Meta官方发出了「开源引领新时代」的声音。在官方博客中，Meta表示：「直到今天，开源大语言模型在功能和性能方面大多落后于封闭模型。现在，我们正在迎来一个开源引领的新时代。我们公开发布MetaLlama3.1405B，我们认为这是世界上最大、功能最强大的开源基础模型。迄今为止，所有Llama版本的总下载量已超过3亿次，我们才刚刚开始。」Meta创始人、CEO扎克伯格也亲自写了篇长文《Op...

2024-07-24 09:43:53 1027浏览 0点赞 0回复 0收藏

中科大联合华为诺亚提出Entropy Law，揭秘大模型性能、数据压缩率以及训练损失关系

本工作由中科大认知智能全国重点实验室IEEEFellow陈恩红团队与华为诺亚方舟实验室完成。陈恩红教授团队深耕数据挖掘、机器学习领域，在顶级期刊与会议上发表多篇论文，谷歌学术论文引用超两万次。诺亚方舟实验室是华为公司从事人工智能基础研究的实验室，秉持理论研究与应用创新并重的理念，致力于推动人工智能领域的技术创新和发展。数据是大语言模型（LLMs）成功的基石，但并非所有数据都有益于模型学习。直觉上，高质量的样...

2024-07-23 09:45:03 1170浏览 0点赞 0回复 0收藏

无限生成视频，还能规划决策，扩散强制整合下一token预测与全序列扩散

近日，MITCSAIL的一个研究团队（一作为MIT在读博士陈博远）成功地将全序列扩散模型与下一token模型的强大能力统合到了一起，提出了一种训练和采样范式：DiffusionForcing（DF）。论文标题：DiffusionForcing:NexttokenPredictionMeetsFullSequenceDiffusion论文地址：https:arxiv.orgpdf2407.01392项目网站：https:boyuan.spacediffusionforcing代码地址：https:github.combuoyancy99diffusionforcing如下所示，扩散强制在一...

2024-07-23 09:32:25 822浏览 0点赞 0回复 0收藏

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

本文作者蒋楠是北京大学智能学院二年级博士生，指导教师朱毅鑫教授，与北京通用人工智能研究院黄思远博士联合开展研究工作。他的研究重点是人物交互理解和数字人的动作生成，并于ICCV，CVPR和ECCV等顶会发表多篇论文。近年来，人物动作生成的研究取得了显著的进展，在众多领域，如计算机视觉、计算机图形学、机器人技术以及人机交互等方面获得广泛的关注。然而，现有工作大多只关注动作本身，以场景和动作类别同时作为约束条件...

2024-07-12 08:35:54 2058浏览 0点赞 0回复 0收藏

ControlNet作者又出爆款！一张图生成绘画全过程，两天狂揽1.4k Star

精华

ControlNet作者LvminZhang又开始整活了！这次瞄准绘画领域。新项目PaintsUndo刚上线不久，就收获1.4kstar（还在疯狂涨）。项目地址：https:github.comlllyasvielPaintsUNDO通过该项目，用户输入一张静态图像，PaintsUndo就能自动帮你生成整个绘画的全过程视频，从线稿到成品都有迹可循。绘制过程，线条变化多端甚是神奇，最终视频结果和原图像非常相似：我们再来看一个完整的绘画过程。PaintsUndo先是用简单的线条勾勒出人物主...

2024-07-12 08:27:37 1447浏览 0点赞 0回复 0收藏

ICML 2024高分论文 | 零阶优化器微调大模型，大幅降低内存

精华

本文共同第一作者简介：张逸骅：密歇根州立大学计算机系博士三年级学生，师从SijiaLiu教授，主要研究方向是大模型的安全、隐私和效率问题。李平治：本科毕业于中国科学技术大学，将于2024Fall博士入学北卡罗来纳大学教堂山分校，师从陈天龙教授，主要研究兴趣集中在高效机器学习和AI4Science领域。洪骏远：德州大学奥斯汀分校博后，导师是ZhangyangWang教授。博士毕业于密歇根州立大学，师从JiayuZhou教授，目前主要的研究方向...

2024-07-04 10:23:10 1164浏览 0点赞 0回复 0收藏

央视点赞国产AI复活召唤术，兵马俑竟与宝石老舅对唱Rap？

沉睡了两千多年的兵马俑，苏醒了？一句秦腔开场，将我们带到了黄土高原。如果不是亲眼所见，很多观众可能难以想象，有生之年还能看到兵马俑和宝石Gem同台对唱《从军行》。「青海长云暗雪山，孤城遥望玉门关。」古调虽存音乐变，声音依旧动人情：这场表演背后的「AI复活召唤术」，叫做EMO，来自阿里巴巴通义实验室。仅仅一张照片、一个音频，EMO就能让静止形象变为惟妙惟肖的唱演视频，且精准卡点音频中的跌宕起伏、抑扬顿挫。...

2024-07-04 10:20:46 998浏览 0点赞 0回复 0收藏

获得成就

已积累 4.0w 人气

获得 0 个点赞

获得 2 次收藏