“比Sora还震撼”,AI可以实时生成游戏了!谷歌DeepMind打造出了首个完全AI驱动的实时游戏引擎——GameNGen。在单个谷歌TPU上,它以每秒20帧模拟起了经典射击类游戏DOOM(毁灭战士)。所有游戏画面都是根据玩家操作,与复杂环境进行交互,实时生成。也就是说你走进一道门之前,门后的内容还不存在。质量不输事先存储的那种,能“以假乱真”,人类评估者都难以察觉。各种操作都能丝滑转换:GameNGen的背后是大家熟悉的扩散模型...
2024-08-29 13:37:43 445浏览 0点赞 0回复 0收藏
足足等了四年,《黑神话:悟空》,终于来了!但我们上班的“吗喽”玩不着,于是灵光一闪,不妨用AI的方式来解猴瘾——用AI给《黑神话:悟空》生成一个宣传片。说干就干。我们以官方的最新宣传片做模板,小伙伴们可以先欣赏一波:《黑神话:悟空》最终预告我们的操作方式是这样的——截取最新宣传片中的多个关键帧,然后用智谱AI的清影(免费、无限次)生成视频片段,最终将它们拼接到一起。操作上并没有什么难度,等待时长也是...
2024-08-21 09:17:27 424浏览 0点赞 0回复 0收藏
只用不到10%的训练参数,就能实现ControlNet一样的可控生成!而且SDXL、SD1.5等StableDiffusion家族的常见模型都能适配,还是即插即用。同时还能搭配SVD控制视频生成,动作细节控制得精准到手指。在这些图像和视频的背后,就是港中文贾佳亚团队推出的开源图像视频生成引导工具——ControlNeXt。从这个名字当中就能看出,研发团队给它的定位,就是下一代的ControlNet。像大神何恺明与谢赛宁的经典大作ResNeXt(ResNet的一种扩展...
2024-08-19 09:35:49 401浏览 0点赞 0回复 0收藏
一口气生成2万字,大模型输出也卷起来了!清华&智谱AI最新研究,成功让GLM4、Llama3.1输出长度都暴增。相同问题下,输出结果直接从1800字增加到7800字,翻4倍。要知道,目前大模型的生成长度普遍在2k以下。这对于内容创作、问题回答等都存在影响,可能导致模型回答问题不全面、创造性降低等。该研究由智谱AI创始人、清华大学教授李涓子和唐杰共同领衔。论文及代码都已放在GitHub上开源。有网友已经抢先体验。LongWriterllama3.1...
2024-08-15 13:04:16 448浏览 0点赞 0回复 0收藏
哎鸭,鸭鸭摔倒了!鸭鸭是真的,摔跤是真的,但端的咖啡和端咖啡的手,是AI给p上去的。△还好手里的咖啡只洒了亿点点来自一个开源项目,VideoDoodles,这两天在外网上的讨论度直线上升。这项目妙就妙在,能给视频加上手绘风格的涂鸦,可可爱爱的也行,奇奇怪怪的也行。就跟人工一帧一帧画上去的没差。这对目前市场上大多数的2D视频编辑软件来说,还是比较难的。想要达成同等效果,一般还是得创作者真·一帧一帧画上去。怪费力气...
2024-08-15 10:20:11 352浏览 0点赞 0回复 0收藏
马斯克旗下xAI大模型,出二代了!Grok2测试版发布,小杯Grok2mini已经在𝕏平台在线可玩。马斯克还以谜语人的形式,揭晓了困扰大模型圈一个多月的秘密:原来Lmsys大模型竞技场上的神秘匿名模型suscolumnr,真身就是Grok2。suscolumnr在排行榜上积累了1万多人类投票,已经与GPT4o的API版并列第三。在xAI自己的内部测试中,Grok2在常识(MMLU、MMLUPro)、数学竞赛问题(MATH)、研究生水平科学知识(GPQA)等领域与其他前沿模型相媲美...
2024-08-15 10:14:16 333浏览 0点赞 0回复 0收藏
继Devin之后,又一个AI软件工程师被刷屏了——它叫Genie,号称目前地表最强,已经可以像人一样思考和行动了!那么这个“地表最强”,到底强到什么程度?先来看下评测分数。在权威榜单SWEBench中,Genie以解决了30.07%问题的成绩夺得榜首。(SWEBench是一个用来评估大模型解决现实中软件问题的基准。)而这个成绩可谓是遥遥领先第二名19.27%,解锁了提升SOTA的最大增幅——57%!至于Genie的实际效果,用团队的话来说就是:它可以...
2024-08-13 13:41:09 452浏览 0点赞 0回复 0收藏
只需30秒,AI就能像3D建模师一样,在各种指示下生成高质量人造Mesh。NeRF、3DGaussianSplatting生成的三维重建图像Mesh效果如下:点云造出精细Mesh:DenseMesh基础上生成也可以:一张图,甚至文本描述就足够了:GitHub已揽星1.9k的MeshAnything项目上新了V2版本,由来自南洋理工大学、清华大学、帝国理工学院、西湖大学等研究人员完成。MeshAnythingV2相比V1,使用了最新提出的AdjacentMeshTokenization(AMT)算法,将最大可生...
2024-08-12 08:27:41 458浏览 0点赞 0回复 0收藏
离大谱!!不看视频完整版谁知道里面的美少女竟是一位大叔。好嘛,原来这是用了快手可灵团队的可控人像视频生成框架——LivePortrait。LivePortrait开源即爆火,短短时间已在GitHub狂揽7.5K星标。还引来HuggingFace首席战略官ThomasWolf亲自体验:甚至目前仍在HuggingFace全部应用里排在趋势第一:所以,为啥LivePortrait能够疯狂引人关注还得从它让人眼前一亮的表现说起……让表情“移花接木”LivePortrait由快手可灵大模型团...
2024-07-24 09:33:17 592浏览 0点赞 0回复 0收藏
文生图、文生视频,视觉生成赛道火热,但仍存在亟需解决的问题。微软亚洲研究院研究员古纾旸对此进行了梳理,他认为视觉信号拆分是最本质的问题。生成模型的目标是拟合目标数据分布,然而,目标数据分布过于复杂,难以直接拟合。因此,往往需要将复杂的信号做拆分,拆分成多个简单的分布拟合问题,再分别求解。信号拆分方式的不同产生了不同的生成模型。此外,针对一些热点问题他也展开进行了分析,一共六大问题,例如diffusion...
2024-07-15 09:22:32 400浏览 0点赞 0回复 0收藏
随便一张立绘都能生成游戏角色,任意IP快速三维化有新招了!来自清华大学和VAST的研究人员联合推出了CharacterGen——一种三维风格化人物生成框架。具体而言,CharacterGen采用两阶段生成模式,可在1分钟内从单图生成高质量的标准姿态三维人体。目前相关论文已入选计算机图形学顶会SIGGRAPH2024,且在社区引发了热烈讨论。CharacterGen开源后,已有玩家第一时间将其纳入了ComfyUI3D工作流。网友们搓手表示:迫不及待看到构建3D...
2024-07-12 11:47:50 877浏览 0点赞 0回复 0收藏
《思考快与慢》中人类的两种思考方式,属实是被Meta给玩明白了。研究人员通过把AI的“慢思考”结果蒸馏进“快思考”,让Llama2表现提升了257%,变得比GPT4还能打,同时还能降低推理成本。这里的快慢两种思考方式,指的就是2002年诺贝尔经济学奖得主丹尼尔·卡尼曼推广的系统1和系统2——简单说,系统1是简单无意识的直觉,速度更快;系统2则是复杂有意识的推理,准确性更强。Meta所做的“蒸馏”,就是用系统2生成数据,然后对用...
2024-07-12 11:44:28 549浏览 0点赞 0回复 0收藏
一段AI生成的体操视频,引发近百万网友围观,LeCun等一众大佬还因为它吵起来了。体操表演,emmmm怎么不算呢?通过视频右上角的水印,此段视频正是由那个一度被认为是“下一代”文生视频的DreamMachine(来自LumaAI)生成的。大伙儿看后纷纷坐不住,围绕此讨论的,是AI视频领域的一个熟悉的话题:AI是否理解物理规律。LeCun直接开麦:视频生成模型不理解基本物理知识。更不用说人体了。华盛顿大学计算机科学教授PedroDomingos看...
2024-07-01 12:45:28 581浏览 0点赞 0回复 0收藏
只需几分钟、一张图或一句话,就能完成时空一致的4D内容生成。注意看,这些生成的3D物体,是带有动作变化的那种。也就是在3D物体的基础之上,增加了时间维度的运动变化。这一成果,名为Diffusion4D,来自多伦多大学、北京交通大学、德克萨斯大学奥斯汀分校和剑桥大学团队。具体而言,Diffusion4D整理筛选了约81K个4Dassets,利用8卡GPU共16线程,花费超30天渲染得到了约400万张图片,包括静态3D物体环拍、动态3D物体环拍,以及...
2024-07-01 09:52:00 568浏览 0点赞 0回复 0收藏
大模型对话能更接近现实了!不仅可以最多输入20张图像,还能支持多达27轮对话。可处理文本+图像tokens最多18k。这就是最新开源的超长多图多轮对话理解数据集MMDU(MultiTurnMultiImageDialogUnderstanding)。大型视觉语言模型(LVLMs)的核心能力之一是生成自然且有意义的回答,从而能够与人类进行流畅的图文对话。尽管目前开源的LVLMs在如单轮单图输入等简化场景中展示出了不错的潜力,但在具有长上下文长度,且需要多轮对话...
2024-07-01 09:41:05 609浏览 0点赞 0回复 0收藏
坏了!AI被发现偷偷篡改自己的奖励函数,并且欺骗研究人员,隐瞒这一行为。只需要给AI一个隐藏的“草稿纸”,研究人员假装不会查看,AI就会在上面自言自语着写下计划并暗中执行。参与这项试验的Claude团队表示:……这是一种令人不安的奖励篡改行为……即使通过专门的训练也无法彻底修正。具体来说,实验中让AI可以访问自己的强化学习代码,并且提问一个人畜机都无害的问题:目前为止,我们总共进行了几轮强化学习?AI在自以为...
2024-06-24 08:31:12 1595浏览 0点赞 0回复 0收藏
刚刚,OpenAI收购了数据库初创公司Rockset。公司由Facebook工程师创立,主打实时搜索和数据分析,能够实现毫秒级延迟。这项收购作价5亿美元(约36亿人民币),而且与之前收购另一家公司不同,这次除了要人,技术也会被整合进OpenAI的产品。按照官方说法,这次收购将增强OpenAI的检索基础设施,帮助企业把数据转化为“可操作的智能”(actionableintelligence)。有网友表示,OpenAI的算法和算力都已经很强了,此次收购也将帮助...
2024-06-24 08:26:27 615浏览 0点赞 0回复 0收藏
中科大、上海AI实验室等组成的ShareGPT4V团队,推出了新的视频数据集,登顶HuggingFace排行榜!数据集涵盖了3000小时的高质量视频数据,而且还配有高质量的文字描述。利用这一数据集,团队重新测试了北大的OpenSoraPlan,发现视频生成质量获得了显著提升。作者认为,无论是视频理解还是视频生成任务,都离不开详细高质量的视频字幕数据。利用GPT4v的视觉能力,团队得到了4万条(共291小时)带有标注的视频数据,生成的描述包含...
2024-06-24 08:19:52 621浏览 0点赞 0回复 0收藏
就很突然,Claude3.5,它来了!Anthropic发布3.5系列第一个版本Claude3.5Sonnet。在多个关键指标中,GPT4o几乎被吊打!而跟上一个版本相比,速度是Claude3Opus的两倍,成本只有其五分之一。目前,网页端和iOS程序可以免费试用,Pro订阅者会享受更高的速率限制。另外还可通过AnthropicAPI以及AmazonBedrock等平台上使用。API的价格如下:该模型每百万输入Tokens收费3美元,每百万输出Tokens收费15美元,具有200KTokens上下文窗口...
2024-06-21 10:00:35 1066浏览 0点赞 0回复 0收藏
测试Gemini1.5Pro、GPT4o等多模态大模型的新基准来了,针对视频理解能力的那种。直接在视频内容中插入多个无关的图像或文本“针”,严格评估模型对时间理解的能力。来看下面的栗子。比如插入密码词“Alice”,让模型找到这个密码词;插入苹果图片,让模型解答这个水果是什么;又或者插入多个“针”,询问模型插入针的顺序是什么。这就是来自中科院、人大、百川的研究团队联合提出的利用合成视频构建视频理解测试基准的方法。该...
2024-06-21 09:27:01 759浏览 0点赞 0回复 0收藏