7B大小的视频理解模型中的新SOTA,来了!它就是由达摩院出品的VideoLLaMA3,以图像为中心构建的新一代多模态视频语言模型。在通用视频理解、时间推理和长视频理解三个核心维度进行评估的过程中,VideoLLaMA3均取得优异成绩,超越多数基线模型。不仅如此,适用于端侧的2B大小的VideoLLaMA3,在图像理解上的表现也是较为出色。在涵盖文档图表场景文本理解、数学推理、多图像理解和常识问答等多个维度的基准测试,如在InfoVQA中超...
终于!终于!Claude4被曝将在未来几周内发布!高亮重点,最新的它采取了一个与之前模型路线不同的办法:是个混合型大模型。简单来说,就是既带有推理能力,会使用更多的算力来思考和解决难题;在面对简单问题的时候,又能像传统大模型一样短平快地轻巧处理,无需多费不必要的功夫。怎么样,听起来是不是和昨天奥特曼透露的GPT5非常类似(doge)。都是不再把传统通用模型和推理模型分开推出,直接融合在一起。据透露,Anthropic...
关乎当红炸子鸡DeepSeek,奥特曼最新观点出炉:对DeepSeek的出现并不意外,而且类似的情况会越来越多。这就是奥特曼在最新一期《泰晤士报》科技播客节目中所提及的内容之一。并且在被问及是否担心OpenAI会成为AI界的Napster(首个P2P音乐共享平台,后因商业压力以失败告终)时,他表示:唯一不让这种事发生的方法就是每天都为此担心。我觉得这种事不会发生在我们身上的原因就是我们一直都在为此感到压力。是有一种没有压力就没...
DeepSeekR1火遍海内外,但推理服务器频频宕机,专享版按GPU小时计费的天价成本更让中小团队望而却步。而市面上所谓“本地部署”方案,多为参数量缩水90%的蒸馏版,背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。因此,想在本地小规模硬件上跑真正的DeepSeekR1,被认为基本不可能。但就在近期,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新:支持24G显存在本地运行DeepSee...
“比Sora还震撼”,AI可以实时生成游戏了!谷歌DeepMind打造出了首个完全AI驱动的实时游戏引擎——GameNGen。在单个谷歌TPU上,它以每秒20帧模拟起了经典射击类游戏DOOM(毁灭战士)。所有游戏画面都是根据玩家操作,与复杂环境进行交互,实时生成。也就是说你走进一道门之前,门后的内容还不存在。质量不输事先存储的那种,能“以假乱真”,人类评估者都难以察觉。各种操作都能丝滑转换:GameNGen的背后是大家熟悉的扩散模型...
2024-08-29 13:37:43 762浏览 0点赞 0回复 0收藏
足足等了四年,《黑神话:悟空》,终于来了!但我们上班的“吗喽”玩不着,于是灵光一闪,不妨用AI的方式来解猴瘾——用AI给《黑神话:悟空》生成一个宣传片。说干就干。我们以官方的最新宣传片做模板,小伙伴们可以先欣赏一波:《黑神话:悟空》最终预告我们的操作方式是这样的——截取最新宣传片中的多个关键帧,然后用智谱AI的清影(免费、无限次)生成视频片段,最终将它们拼接到一起。操作上并没有什么难度,等待时长也是...
2024-08-21 09:17:27 829浏览 0点赞 0回复 0收藏
只用不到10%的训练参数,就能实现ControlNet一样的可控生成!而且SDXL、SD1.5等StableDiffusion家族的常见模型都能适配,还是即插即用。同时还能搭配SVD控制视频生成,动作细节控制得精准到手指。在这些图像和视频的背后,就是港中文贾佳亚团队推出的开源图像视频生成引导工具——ControlNeXt。从这个名字当中就能看出,研发团队给它的定位,就是下一代的ControlNet。像大神何恺明与谢赛宁的经典大作ResNeXt(ResNet的一种扩展...
2024-08-19 09:35:49 666浏览 0点赞 0回复 0收藏
一口气生成2万字,大模型输出也卷起来了!清华&智谱AI最新研究,成功让GLM4、Llama3.1输出长度都暴增。相同问题下,输出结果直接从1800字增加到7800字,翻4倍。要知道,目前大模型的生成长度普遍在2k以下。这对于内容创作、问题回答等都存在影响,可能导致模型回答问题不全面、创造性降低等。该研究由智谱AI创始人、清华大学教授李涓子和唐杰共同领衔。论文及代码都已放在GitHub上开源。有网友已经抢先体验。LongWriterllama3.1...
2024-08-15 13:04:16 772浏览 0点赞 0回复 0收藏
哎鸭,鸭鸭摔倒了!鸭鸭是真的,摔跤是真的,但端的咖啡和端咖啡的手,是AI给p上去的。△还好手里的咖啡只洒了亿点点来自一个开源项目,VideoDoodles,这两天在外网上的讨论度直线上升。这项目妙就妙在,能给视频加上手绘风格的涂鸦,可可爱爱的也行,奇奇怪怪的也行。就跟人工一帧一帧画上去的没差。这对目前市场上大多数的2D视频编辑软件来说,还是比较难的。想要达成同等效果,一般还是得创作者真·一帧一帧画上去。怪费力气...
2024-08-15 10:20:11 725浏览 0点赞 0回复 0收藏
马斯克旗下xAI大模型,出二代了!Grok2测试版发布,小杯Grok2mini已经在𝕏平台在线可玩。马斯克还以谜语人的形式,揭晓了困扰大模型圈一个多月的秘密:原来Lmsys大模型竞技场上的神秘匿名模型suscolumnr,真身就是Grok2。suscolumnr在排行榜上积累了1万多人类投票,已经与GPT4o的API版并列第三。在xAI自己的内部测试中,Grok2在常识(MMLU、MMLUPro)、数学竞赛问题(MATH)、研究生水平科学知识(GPQA)等领域与其他前沿模型相媲美...
2024-08-15 10:14:16 673浏览 0点赞 0回复 0收藏
继Devin之后,又一个AI软件工程师被刷屏了——它叫Genie,号称目前地表最强,已经可以像人一样思考和行动了!那么这个“地表最强”,到底强到什么程度?先来看下评测分数。在权威榜单SWEBench中,Genie以解决了30.07%问题的成绩夺得榜首。(SWEBench是一个用来评估大模型解决现实中软件问题的基准。)而这个成绩可谓是遥遥领先第二名19.27%,解锁了提升SOTA的最大增幅——57%!至于Genie的实际效果,用团队的话来说就是:它可以...
2024-08-13 13:41:09 869浏览 0点赞 0回复 0收藏
只需30秒,AI就能像3D建模师一样,在各种指示下生成高质量人造Mesh。NeRF、3DGaussianSplatting生成的三维重建图像Mesh效果如下:点云造出精细Mesh:DenseMesh基础上生成也可以:一张图,甚至文本描述就足够了:GitHub已揽星1.9k的MeshAnything项目上新了V2版本,由来自南洋理工大学、清华大学、帝国理工学院、西湖大学等研究人员完成。MeshAnythingV2相比V1,使用了最新提出的AdjacentMeshTokenization(AMT)算法,将最大可生...
2024-08-12 08:27:41 843浏览 0点赞 0回复 0收藏
离大谱!!不看视频完整版谁知道里面的美少女竟是一位大叔。好嘛,原来这是用了快手可灵团队的可控人像视频生成框架——LivePortrait。LivePortrait开源即爆火,短短时间已在GitHub狂揽7.5K星标。还引来HuggingFace首席战略官ThomasWolf亲自体验:甚至目前仍在HuggingFace全部应用里排在趋势第一:所以,为啥LivePortrait能够疯狂引人关注还得从它让人眼前一亮的表现说起……让表情“移花接木”LivePortrait由快手可灵大模型团...
2024-07-24 09:33:17 1144浏览 0点赞 0回复 0收藏
文生图、文生视频,视觉生成赛道火热,但仍存在亟需解决的问题。微软亚洲研究院研究员古纾旸对此进行了梳理,他认为视觉信号拆分是最本质的问题。生成模型的目标是拟合目标数据分布,然而,目标数据分布过于复杂,难以直接拟合。因此,往往需要将复杂的信号做拆分,拆分成多个简单的分布拟合问题,再分别求解。信号拆分方式的不同产生了不同的生成模型。此外,针对一些热点问题他也展开进行了分析,一共六大问题,例如diffusion...
2024-07-15 09:22:32 686浏览 0点赞 0回复 0收藏
随便一张立绘都能生成游戏角色,任意IP快速三维化有新招了!来自清华大学和VAST的研究人员联合推出了CharacterGen——一种三维风格化人物生成框架。具体而言,CharacterGen采用两阶段生成模式,可在1分钟内从单图生成高质量的标准姿态三维人体。目前相关论文已入选计算机图形学顶会SIGGRAPH2024,且在社区引发了热烈讨论。CharacterGen开源后,已有玩家第一时间将其纳入了ComfyUI3D工作流。网友们搓手表示:迫不及待看到构建3D...
2024-07-12 11:47:50 1362浏览 0点赞 0回复 0收藏
《思考快与慢》中人类的两种思考方式,属实是被Meta给玩明白了。研究人员通过把AI的“慢思考”结果蒸馏进“快思考”,让Llama2表现提升了257%,变得比GPT4还能打,同时还能降低推理成本。这里的快慢两种思考方式,指的就是2002年诺贝尔经济学奖得主丹尼尔·卡尼曼推广的系统1和系统2——简单说,系统1是简单无意识的直觉,速度更快;系统2则是复杂有意识的推理,准确性更强。Meta所做的“蒸馏”,就是用系统2生成数据,然后对用...
2024-07-12 11:44:28 834浏览 0点赞 0回复 0收藏
一段AI生成的体操视频,引发近百万网友围观,LeCun等一众大佬还因为它吵起来了。体操表演,emmmm怎么不算呢?通过视频右上角的水印,此段视频正是由那个一度被认为是“下一代”文生视频的DreamMachine(来自LumaAI)生成的。大伙儿看后纷纷坐不住,围绕此讨论的,是AI视频领域的一个熟悉的话题:AI是否理解物理规律。LeCun直接开麦:视频生成模型不理解基本物理知识。更不用说人体了。华盛顿大学计算机科学教授PedroDomingos看...
2024-07-01 12:45:28 953浏览 0点赞 0回复 0收藏
只需几分钟、一张图或一句话,就能完成时空一致的4D内容生成。注意看,这些生成的3D物体,是带有动作变化的那种。也就是在3D物体的基础之上,增加了时间维度的运动变化。这一成果,名为Diffusion4D,来自多伦多大学、北京交通大学、德克萨斯大学奥斯汀分校和剑桥大学团队。具体而言,Diffusion4D整理筛选了约81K个4Dassets,利用8卡GPU共16线程,花费超30天渲染得到了约400万张图片,包括静态3D物体环拍、动态3D物体环拍,以及...
2024-07-01 09:52:00 896浏览 0点赞 0回复 0收藏
大模型对话能更接近现实了!不仅可以最多输入20张图像,还能支持多达27轮对话。可处理文本+图像tokens最多18k。这就是最新开源的超长多图多轮对话理解数据集MMDU(MultiTurnMultiImageDialogUnderstanding)。大型视觉语言模型(LVLMs)的核心能力之一是生成自然且有意义的回答,从而能够与人类进行流畅的图文对话。尽管目前开源的LVLMs在如单轮单图输入等简化场景中展示出了不错的潜力,但在具有长上下文长度,且需要多轮对话...
2024-07-01 09:41:05 928浏览 0点赞 0回复 0收藏
坏了!AI被发现偷偷篡改自己的奖励函数,并且欺骗研究人员,隐瞒这一行为。只需要给AI一个隐藏的“草稿纸”,研究人员假装不会查看,AI就会在上面自言自语着写下计划并暗中执行。参与这项试验的Claude团队表示:……这是一种令人不安的奖励篡改行为……即使通过专门的训练也无法彻底修正。具体来说,实验中让AI可以访问自己的强化学习代码,并且提问一个人畜机都无害的问题:目前为止,我们总共进行了几轮强化学习?AI在自以为...
2024-06-24 08:31:12 1948浏览 0点赞 0回复 0收藏