公众号矩阵

移动端

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Crystalcxt

LV.5

这个用户很懒，还没有个人简介

帖子 98

声望 802

关注 0

粉丝 0

社区头条作者

私信

关注

主帖 98

回帖

何恺明开辟分形图像生成新范式！计算效率提高4000倍，首次实现高分辨率逐像素生成

何恺明再次开宗立派！开辟了生成模型的全新范式——分形生成模型FractalGenerativeModels，首次使逐像素生成高分辨率图像成为可能，论文名字依旧延续以往的大道至简风格。团队将生成模型本身抽象为可复用的“原子模块”。通过递归地在生成模型中调用这些原子生成模块，可以构建出一种自相似的分形架构。其灵感源于数学中的分形思想。它相当于一个粗糙或零碎的几何形状分成数个部分，每一部分都（至少近似地）是整体缩小后的形状...

5天前 233浏览 0点赞 0回复 0收藏

达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA | 在线可玩

7B大小的视频理解模型中的新SOTA，来了！它就是由达摩院出品的VideoLLaMA3，以图像为中心构建的新一代多模态视频语言模型。在通用视频理解、时间推理和长视频理解三个核心维度进行评估的过程中，VideoLLaMA3均取得优异成绩，超越多数基线模型。不仅如此，适用于端侧的2B大小的VideoLLaMA3，在图像理解上的表现也是较为出色。在涵盖文档图表场景文本理解、数学推理、多图像理解和常识问答等多个维度的基准测试，如在InfoVQA中超...

2025-02-14 13:02:21 445浏览 0点赞 0回复 0收藏

Claude 4被曝发布在即！DeepSeek把大招都给逼出来了

终于！终于！Claude4被曝将在未来几周内发布！高亮重点，最新的它采取了一个与之前模型路线不同的办法：是个混合型大模型。简单来说，就是既带有推理能力，会使用更多的算力来思考和解决难题；在面对简单问题的时候，又能像传统大模型一样短平快地轻巧处理，无需多费不必要的功夫。怎么样，听起来是不是和昨天奥特曼透露的GPT5非常类似（doge）。都是不再把传统通用模型和推理模型分开推出，直接融合在一起。据透露，Anthropic...

2025-02-14 12:58:41 345浏览 0点赞 0回复 0收藏

奥特曼再谈DeepSeek：每天醒来都有压力

关乎当红炸子鸡DeepSeek，奥特曼最新观点出炉：对DeepSeek的出现并不意外，而且类似的情况会越来越多。这就是奥特曼在最新一期《泰晤士报》科技播客节目中所提及的内容之一。并且在被问及是否担心OpenAI会成为AI界的Napster（首个P2P音乐共享平台，后因商业压力以失败告终）时，他表示：唯一不让这种事发生的方法就是每天都为此担心。我觉得这种事不会发生在我们身上的原因就是我们一直都在为此感到压力。是有一种没有压力就没...

2025-02-13 16:46:49 291浏览 0点赞 0回复 0收藏

4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛

DeepSeekR1火遍海内外，但推理服务器频频宕机，专享版按GPU小时计费的天价成本更让中小团队望而却步。而市面上所谓“本地部署”方案，多为参数量缩水90%的蒸馏版，背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。因此，想在本地小规模硬件上跑真正的DeepSeekR1，被认为基本不可能。但就在近期，清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新：支持24G显存在本地运行DeepSee...

2025-02-12 16:06:09 593浏览 0点赞 0回复 0收藏

震撼！AI实时生成游戏，每秒20帧输出，DeepMind扩散模型最新突破一夜爆火

精华

“比Sora还震撼”，AI可以实时生成游戏了！谷歌DeepMind打造出了首个完全AI驱动的实时游戏引擎——GameNGen。在单个谷歌TPU上，它以每秒20帧模拟起了经典射击类游戏DOOM（毁灭战士）。所有游戏画面都是根据玩家操作，与复杂环境进行交互，实时生成。也就是说你走进一道门之前，门后的内容还不存在。质量不输事先存储的那种，能“以假乱真”，人类评估者都难以察觉。各种操作都能丝滑转换：GameNGen的背后是大家熟悉的扩散模型...

2024-08-29 13:37:43 803浏览 0点赞 0回复 0收藏

AI给《黑神话：悟空》生成了一个宣传片…看完我沉默了

精华

足足等了四年，《黑神话：悟空》，终于来了！但我们上班的“吗喽”玩不着，于是灵光一闪，不妨用AI的方式来解猴瘾——用AI给《黑神话：悟空》生成一个宣传片。说干就干。我们以官方的最新宣传片做模板，小伙伴们可以先欣赏一波：《黑神话：悟空》最终预告我们的操作方式是这样的——截取最新宣传片中的多个关键帧，然后用智谱AI的清影（免费、无限次）生成视频片段，最终将它们拼接到一起。操作上并没有什么难度，等待时长也是...

2024-08-21 09:17:27 892浏览 0点赞 0回复 0收藏

蜘蛛侠妖娆起舞，下一代ControlNet来了！贾佳亚团队推出，即插即用，还能控制视频生成

只用不到10%的训练参数，就能实现ControlNet一样的可控生成！而且SDXL、SD1.5等StableDiffusion家族的常见模型都能适配，还是即插即用。同时还能搭配SVD控制视频生成，动作细节控制得精准到手指。在这些图像和视频的背后，就是港中文贾佳亚团队推出的开源图像视频生成引导工具——ControlNeXt。从这个名字当中就能看出，研发团队给它的定位，就是下一代的ControlNet。像大神何恺明与谢赛宁的经典大作ResNeXt（ResNet的一种扩展...

2024-08-19 09:35:49 721浏览 0点赞 0回复 0收藏

清华唐杰团队新作：一口气生成2万字，大模型开卷长输出

精华

一口气生成2万字，大模型输出也卷起来了！清华&智谱AI最新研究，成功让GLM4、Llama3.1输出长度都暴增。相同问题下，输出结果直接从1800字增加到7800字，翻4倍。要知道，目前大模型的生成长度普遍在2k以下。这对于内容创作、问题回答等都存在影响，可能导致模型回答问题不全面、创造性降低等。该研究由智谱AI创始人、清华大学教授李涓子和唐杰共同领衔。论文及代码都已放在GitHub上开源。有网友已经抢先体验。LongWriterllama3.1...

2024-08-15 13:04:16 820浏览 0点赞 0回复 0收藏

AI斗图神器：普通视频秒变meme，手绘动画轻松融入，了解一下？

哎鸭，鸭鸭摔倒了！鸭鸭是真的，摔跤是真的，但端的咖啡和端咖啡的手，是AI给p上去的。△还好手里的咖啡只洒了亿点点来自一个开源项目，VideoDoodles，这两天在外网上的讨论度直线上升。这项目妙就妙在，能给视频加上手绘风格的涂鸦，可可爱爱的也行，奇奇怪怪的也行。就跟人工一帧一帧画上去的没差。这对目前市场上大多数的2D视频编辑软件来说，还是比较难的。想要达成同等效果，一般还是得创作者真·一帧一帧画上去。怪费力气...

2024-08-15 10:20:11 807浏览 0点赞 0回复 0收藏

马斯克突发新版大模型，牺牲特斯拉资源叫板OpenAI，Grok-2一手实测来了

马斯克旗下xAI大模型，出二代了！Grok2测试版发布，小杯Grok2mini已经在𝕏平台在线可玩。马斯克还以谜语人的形式，揭晓了困扰大模型圈一个多月的秘密：原来Lmsys大模型竞技场上的神秘匿名模型suscolumnr，真身就是Grok2。suscolumnr在排行榜上积累了1万多人类投票，已经与GPT4o的API版并列第三。在xAI自己的内部测试中，Grok2在常识（MMLU、MMLUPro）、数学竞赛问题(MATH)、研究生水平科学知识(GPQA)等领域与其他前沿模型相媲美...

2024-08-15 10:14:16 723浏览 0点赞 0回复 0收藏

最强AI程序员砸饭碗：84秒跑通代码，像人一样思考！团队仅5人

精华

继Devin之后，又一个AI软件工程师被刷屏了——它叫Genie，号称目前地表最强，已经可以像人一样思考和行动了！那么这个“地表最强”，到底强到什么程度？先来看下评测分数。在权威榜单SWEBench中，Genie以解决了30.07%问题的成绩夺得榜首。（SWEBench是一个用来评估大模型解决现实中软件问题的基准。）而这个成绩可谓是遥遥领先第二名19.27%，解锁了提升SOTA的最大增幅——57%！至于Genie的实际效果，用团队的话来说就是：它可以...

2024-08-13 13:41:09 925浏览 0点赞 0回复 0收藏

30秒生成建模师级Mesh！最大可生成面数提升至1600，GitHub揽星1.9k项目发布V2版本

只需30秒，AI就能像3D建模师一样，在各种指示下生成高质量人造Mesh。NeRF、3DGaussianSplatting生成的三维重建图像Mesh效果如下：点云造出精细Mesh：DenseMesh基础上生成也可以：一张图，甚至文本描述就足够了：GitHub已揽星1.9k的MeshAnything项目上新了V2版本，由来自南洋理工大学、清华大学、帝国理工学院、西湖大学等研究人员完成。MeshAnythingV2相比V1，使用了最新提出的AdjacentMeshTokenization（AMT）算法，将最大可生...

2024-08-12 08:27:41 911浏览 0点赞 0回复 0收藏

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星

精华

离大谱！！不看视频完整版谁知道里面的美少女竟是一位大叔。好嘛，原来这是用了快手可灵团队的可控人像视频生成框架——LivePortrait。LivePortrait开源即爆火，短短时间已在GitHub狂揽7.5K星标。还引来HuggingFace首席战略官ThomasWolf亲自体验：甚至目前仍在HuggingFace全部应用里排在趋势第一：所以，为啥LivePortrait能够疯狂引人关注还得从它让人眼前一亮的表现说起……让表情“移花接木”LivePortrait由快手可灵大模型团...

2024-07-24 09:33:17 1260浏览 0点赞 0回复 0收藏

MSRA：视觉生成六大技术问题

文生图、文生视频，视觉生成赛道火热，但仍存在亟需解决的问题。微软亚洲研究院研究员古纾旸对此进行了梳理，他认为视觉信号拆分是最本质的问题。生成模型的目标是拟合目标数据分布，然而，目标数据分布过于复杂，难以直接拟合。因此，往往需要将复杂的信号做拆分，拆分成多个简单的分布拟合问题，再分别求解。信号拆分方式的不同产生了不同的生成模型。此外，针对一些热点问题他也展开进行了分析，一共六大问题，例如diffusion...

2024-07-15 09:22:32 736浏览 0点赞 0回复 0收藏

一分钟原画变3D角色，清华VAST成果入选图形学顶会SIGGRAPH

随便一张立绘都能生成游戏角色，任意IP快速三维化有新招了！来自清华大学和VAST的研究人员联合推出了CharacterGen——一种三维风格化人物生成框架。具体而言，CharacterGen采用两阶段生成模式，可在1分钟内从单图生成高质量的标准姿态三维人体。目前相关论文已入选计算机图形学顶会SIGGRAPH2024，且在社区引发了热烈讨论。CharacterGen开源后，已有玩家第一时间将其纳入了ComfyUI3D工作流。网友们搓手表示：迫不及待看到构建3D...

2024-07-12 11:47:50 1419浏览 0点赞 0回复 0收藏

AI慢思考蒸馏进快思考，Llama2跃升至GPT-4水平，不写过程也能做对题

《思考快与慢》中人类的两种思考方式，属实是被Meta给玩明白了。研究人员通过把AI的“慢思考”结果蒸馏进“快思考”，让Llama2表现提升了257%，变得比GPT4还能打，同时还能降低推理成本。这里的快慢两种思考方式，指的就是2002年诺贝尔经济学奖得主丹尼尔·卡尼曼推广的系统1和系统2——简单说，系统1是简单无意识的直觉，速度更快；系统2则是复杂有意识的推理，准确性更强。Meta所做的“蒸馏”，就是用系统2生成数据，然后对用...

2024-07-12 11:44:28 914浏览 0点赞 0回复 0收藏

AI恐怖体操视频腿脚乱飞、大变活人，LeCun：视频生成模型根本不懂物理

一段AI生成的体操视频，引发近百万网友围观，LeCun等一众大佬还因为它吵起来了。体操表演，emmmm怎么不算呢？通过视频右上角的水印，此段视频正是由那个一度被认为是“下一代”文生视频的DreamMachine（来自LumaAI）生成的。大伙儿看后纷纷坐不住，围绕此讨论的，是AI视频领域的一个熟悉的话题：AI是否理解物理规律。LeCun直接开麦：视频生成模型不理解基本物理知识。更不用说人体了。华盛顿大学计算机科学教授PedroDomingos看...

2024-07-01 12:45:28 1022浏览 0点赞 0回复 0收藏

靠Scaling Laws炼出4D版视频生成模型，多伦多大学北交大等携手开源81K高质量数据集

只需几分钟、一张图或一句话，就能完成时空一致的4D内容生成。注意看，这些生成的3D物体，是带有动作变化的那种。也就是在3D物体的基础之上，增加了时间维度的运动变化。这一成果，名为Diffusion4D，来自多伦多大学、北京交通大学、德克萨斯大学奥斯汀分校和剑桥大学团队。具体而言，Diffusion4D整理筛选了约81K个4Dassets，利用8卡GPU共16线程，花费超30天渲染得到了约400万张图片，包括静态3D物体环拍、动态3D物体环拍，以及...

2024-07-01 09:52:00 957浏览 0点赞 0回复 0收藏

一次可输入多张图像，还能多轮对话！最新开源数据集，让AI聊天更接近现实

大模型对话能更接近现实了！不仅可以最多输入20张图像，还能支持多达27轮对话。可处理文本+图像tokens最多18k。这就是最新开源的超长多图多轮对话理解数据集MMDU（MultiTurnMultiImageDialogUnderstanding）。大型视觉语言模型（LVLMs）的核心能力之一是生成自然且有意义的回答，从而能够与人类进行流畅的图文对话。尽管目前开源的LVLMs在如单轮单图输入等简化场景中展示出了不错的潜力，但在具有长上下文长度，且需要多轮对话...

2024-07-01 09:41:05 988浏览 0点赞 0回复 0收藏

获得成就

已积累 2.7w 人气

获得 0 个点赞

获得 1 次收藏