全部帖子-AI.x-AIGC专属社区-51CTO.COM

震惊！AI生成真人视频毫无瑕疵，台词随意变！HeyGen硬核升级数字人

2024年3月21日，HeyGen5.0正式发布！这款革命性的AIGC产品将AI数字人的魔力融入视频创作，以其简洁易用的特性，让视频制作变得轻而易举。只需几次点击，即可打造出令人惊叹的高品质视频作品！不仅如此，HeyGen支持超过40种语言和多种口音，每一个数字人都是语言大师！如此惊艳！HeyGen5.0生成的数字人不仅可以保持口型同步，克隆语音语调，保留背景声，还能精准的识别和追踪用户的身体动作，如手部移动和手势！让我们看看下面的...

pangguiyu 0回复 2476浏览

AI数字人HeyGen

今日arXiv最热NLP大模型论文：天津大学发布大模型数学能力细粒度评价基准FineMath

引言：大语言模型数学能力评估的重要性数学能力的评估对于理解和发展大语言模型（LLMs）至关重要。数学问题不仅涉及对数字的理解和操作，还包括了抽象概念化、逻辑推理等核心能力的考察。因此，一个高质量的数学评估基准对于全面评估LLMs的能力具有重大意义。传统的数学问题数据集，如AddSub和MultiArith（下图），提供了基础的数学词汇问题库，但这些通常只能评估模型在特定数学问题上的准确性。随着中文LLMs的迅速发展，相应...

pangguiyu 0回复 2506浏览

大语言模型

集体出走的Stability AI 发布全新代码大模型，3B以下性能最优，超越Code Llama和DeepSeek-Coder

StabilityAI又有新动作！程序员又有危机了？3月26日，StabilityAI推出了先进的代码语言模型StableCodeInstruct3B，该模型是在StableCode3B的基础上进行指令调优的CodeLM。StabilityAI表示，StableCodeInstruct3B在代码完成准确性、对自然语言指令的理解以及处理多种编程语言方面都优于同类模型，在3B规模下提供最先进的性能，并且性能媲美Codellama7BInstruct以及DeepSeekCoderInstruct1.3B先让我们来感受一下StableCodeInstruc...

pangguiyu 0回复 3042浏览

Stability AI大模型

更好、更安全、更不依赖OpenAI，微软的AI新动向，推出大模型安全工具Azure AI

编译丨伊风出品51CTO技术栈（微信号：blog51cto）对生成性人工智能（generativeAI）的需求正不断增长，而对LLM安全和可靠性的担忧也变得比以往任何时候都更加突出。企业希望能确保为内外部使用而开发的大规模语言模型（LLM）能够提供高质量的输出，而不会偏离到未知领域。微软认识到这些担忧，长期以来，微软使用OpenAI的模型只能调用API，对黑盒里的秘密缺少掌控的方法。微软近期宣布推出了新的AzureAI工具，用以帮助解决大模...

51CTO技术栈 0回复 1584浏览

OpenAIAI工具

让Siri不再智障！苹果定义新的端侧模型，“大大优于GPT-4，摆脱文本，可视化模拟屏幕信息，最小参数模型相

撰稿丨诺亚出品51CTO技术栈（微信号：blog51cto）总被用户吐槽“有点智障”的Siri有救了！Siri自诞生以来就是智能语音助手领域的代表之一，但很长一段时间里，其表现并不尽如人意。然而，苹果的人工智能团队最新发布的研究成果有望极大地改变现状。在相关的研究论文中，苹果的AI专家们描述了一个系统，其中Siri不仅可以识别图像中的内容，还能做更多的事情，变得更智能、更实用。尤为令人兴奋的是，他们认为自己研发的用于实现...

51CTO技术栈 0回复 1416浏览

Siri苹果GPT-4

比肩Transformer的Mamba在时间序列上有效吗？

Mamba是最近最火的模型之一，更是被业内认为可以有取代Transformer的潜力。今天介绍的这篇文章，探索了Mamba模型在时间序列预测任务上是有有效。本文首先给大家介绍Mamba的基础原理，再结合这篇文章探索在时间序列预测场景中Mamba是否有效。论文标题：IsMambaEffectiveforTimeSeriesForecasting下载地址：https:arxiv.orgpdf2403.11144.pdf1、Mamba基础原理Mamba是一种基于StateSpaceModel的结构，和RNN非常像。Mamba相...

海因斯DK 0回复 4856浏览

TransformerSSMMamba

AniPortrait开源上线！音频驱动逼真人像动画合成！人人都是歌手！

文章链接：https:arxiv.orgpdf2403.17694Github链接：https:github.comZejunYangAniPortrait本文提出了AniPortrait，一个新颖的框架，用于生成由音频和参考人像驱动的高质量动画。方法分为两个阶段。首先，从音频中提取3D中间表示，并将它们投影到一系列2D面部关键点上。随后，采用了一个强大的扩散模型，结合一个运动模块，将关键点序列转换为逼真且时间上连贯的人像动画。实验结果表明，在面部自然性、姿势多样性和视...

angel 0回复 2557浏览

模型动画

检索感知微调（RAFT），提升领域RAG效果的新方法

一般来讲，让大模型应用到具体的行业领域，那就必须让大模型懂得行业里的知识。这种知识的导入一般有三种方法，一种是在预训练阶段喂给模型一些领域的文档和知识，扩充一些领域词表的方式解决。而更为常用的是另外两种做法，微调或者RAG，其中微调是以问答对的方式将领域知识训练到模型中，而RAG则是通过在Prompt中增加领域知识上下文的方式让大模型获得相关领域知识进而回答领域问题。有一个形象的比喻是，微调的方式相当于是...

Syrupup 0回复 2851浏览

RAGRAFT工具

重大突破！IDAdapter：首个无需微调，单张图像生成多样和个性化头像方案(北大&格灵深瞳）

论文链接：https:arxiv.orgpdf2403.13535先看效果利用StableDiffusion技术进行个性化肖像生成已经成为一种强大而引人注目的工具，使用户能够根据特定的prompts创建高保真度的定制角色头像。然而，现有的个性化方法面临着挑战，包括测试时微调、需要多个输入图像、身份保存度低以及生成结果的多样性有限等。为了克服这些挑战，本文引入了IDAdapter，这是一种无需调整的方法，可增强来自单个人脸图像的个性化图像生成中的多样性和...

angel 0回复 3558浏览

生成图像

谷歌推出多模态视频模型，自动生成丰富动作视频

谷歌的研究人员推出了一款多模态扩散模型——VLOGGER。用户只需要向VLOGGER输入图像、语音，就能生成带语音、丰富动作的人物视频。VLOGGER基于扩散模型开发而成，并提出了一种全新的架构，将文本生成图像模型与空间、时间控制相结合，提升视频生成的逼真效果和丰富动作。研究人员在HDTF、TalkingHead1KH和MENTOR等多个数据集对VLOGGER进行了综合测试。结果显示，VLOGGER在视频质量、物体还原性和时序一致性等方面表现出色,同时...

Aceryt 0回复 2013浏览

数据视频

文生图模型又卷起来了，Stable Diffusion凉凉，Midjourney流量被反超

今年以来，文生图模型领域就没消停过。3月23日，StabilityAICEOEmadMostaque宣布离职，这个昔日文生图巨头CEO的高调退场给了AI界一次小小的震撼。这并不奇怪。混乱，几乎是StabilityAI在过去一年多时间里的缩影：管理层离职、技术团队跑路、入不敷出、法律官司……一年以前，StabilityAI还曾是一家文生图领域的超级明星：当StableDiffusion推出并宣布彻底开源后，这款AI图像生成模型在上线三个月内用户总量达到1000万。同一时期...

liutao988 0回复 1854浏览

Stability AI

AI取代周杰伦？人均音乐制作人的时代是否已然来临

当前，在音乐的世界里，一首由AI生成的歌曲火了。这首名为《WeGo!》的歌曲，由音乐大模型Suno生成，其播放量已经超过十几万，甚至一度冲上热度榜首位，引发了网友们的广泛热议。有网友评论表示：“《WeGo!》有点像专业的作品了”，也有其他网友说：“《WeGo!》听上去好像没有感情”。虽然对于AI音乐，网友们褒贬不一，但如果AI能直接生成专业作品，而且受到大多数听众的喜爱，是不是意味着AI将改变音乐界的专业分工甚至促使整个...

liutao988 0回复 1132浏览

AI

在全面“本地化”前，所有AI PC都是“伪AI PC”？

先思考一个问题：一个依赖于云端AI的PC，能够称之为AIPC吗？2024年的PC市场，AIPC无疑会是最重要的概念之一，主流PC厂商以及英特尔、AMD都在下重金押注。但对于已经发布的AIPC产品，不少人并不认可，核心在于这些AIPC中「AI」与「PC」（硬件）基本是分离的。很简单，就拿目前PC上最大的AI用例——微软Copilot来说，在英特尔与微软对「AIPC」的联合定义中，强调必须配备混合架构芯片、Copilot及其对应的物理按键。但事实是，所有...

liutao988 0回复 1116浏览

AI PC

AI迎来Uber时刻，初创公司如何构筑新护城河？

最近，一篇题为AIHasanUberProblem（TheInformation）的文章引人深思。作者TimO'Reilly指出：当初Uber和Lyft利用丰厚的风投资金补贴车费，赶走了竞争对手。如今OpenAI等财大气粗的AI初创企业，正在重复这种Uber模式。在国内，我们常说滴滴是“虚假垄断”——下架18个月，归来仍是王者&成立至今，累计亏损超千亿元。当Facebook们已经凭借网络效应抢先一步成为“赢家”时，同样具备网络效应的滴滴们却还在持续烧钱，而且只能烧钱...

liutao988 0回复 1089浏览

AI

最强开源大模型易主，号称超过Llama 2、Mixtral、Grok-1的DBRX是什么？

3月27日，美国数据和人工智能公司Databricks宣布开源MosaicResearch团队主导开发的通用混合专家（MoE）大语言模型DBRX。DBRX的研发历经数月，耗资约1000万美元，共包含1320亿参数，16个专家网络，每次推理时会启用其中的4个专家网络和360亿参数。DBRX在语言理解、编程、数学和逻辑等方面表现卓越，不仅在性能上超过了开源大模型Llama2、Mixtral以及马斯克新开源的Grok1，而且在多项评分上已经逼近GPT4。HyperWriteAICEOMattShum...

liutao988 0回复 2056浏览

大模型

CVPR 2024 | 多模态大模型幻觉原因找到了！

论文题目：OPERA:AlleviatingHallucinationinMultiModalLargeLanguageModelsviaOverTrustPenaltyandRetrospectionAllocation论文地址：https:arxiv.orgabs2311.17911代码地址：https:github.comshikiwOPERA01背景从LLaVA到QwenVL，从GPT4V到Claude3，幻觉（Hallucination）问题一直是当前多模态大模型（MLLM）的重要问题。当前大多数的多模态大模型对于用户提供的图像和提问，容易因为幻觉给出非常离谱的回答，...

zhangyannni 0回复 3337浏览

大模型研究

港中文提出CLongEval中文基准测试集，准确评估大模型长上下文能力

论文题目：ClongEval:AChineseBenchmarkforEvaluatingLongContextLargeLanguageModels论文地址：https:arxiv.orgabs2403.03514代码地址：https:github.comzexuanqiuCLongEval01研究背景和贡献为了使LLM能够支持更复杂和多样化的应用，越来越多的研究致力于扩展LLM能够处理的上下文窗口。为了评估这些longcontextLLM支持长上下文能力，目前英文领域有几个数据集被提出（如LongBench,LEval,LooGLE）。然而，在中...

zhangyannni 0回复 3384浏览

模型评估

ICLR 2024 | 鸡生蛋蛋生鸡？再论生成数据能否帮助模型训练

随着生成模型（如ChatGPT、扩散模型）飞速发展，一方面，生成数据质量越来越高，到了以假乱真的程度；另一方面，随着模型越来越大，也使得人类世界的真实数据即将枯竭。面对这一处境，一个近期的研究热度是，能否利用生成模型生成的假数据来辅助学习？学界对此也产生了许多争论：到底是可以左脚踩右脚（bootsrap）地实现weaktostrong的不断提升，还是像鸡生蛋、蛋生鸡一样，只不过是徒劳无功？在近期ICLR2024工作中，北大王奕森...

zhangyannni 0回复 1315浏览

数据生成

“企业级AI元年”已至，AI如何更好赋能企业发展？

如果说2023年是生成式AI元年的话，那么2024年将成为企业级AI元年。从过去一年多的发展来看，AI技术应用的热门场景更多的还是在消费侧，无论是“文生文”的大语言模型，还是“文生图”的多模态模型，更多的是辅助人们进行一些简单的办公，或者提供一些娱乐。生成式AI离真正成熟的企业级应用尚需时日。不过随着技术的不断发展，2024年，将会有更多的企业级AI应用落地，而AI与产业的融合也将成为今年科技圈的焦点话题之一。应用前...

liutao988 0回复 1635浏览

AI

假如AI圈有世纪大和解

前不久，曹云金给郭德纲直播刷火箭登上热搜。网友们除了各自站队之外，还有不少人表示，你们俩什么时候世纪大和解啊？说起和解，其实AI圈也有不少矛盾。有些是缠绵多年的新仇旧恨，有些是要对簿公堂的深仇大恨。如果这些矛盾都能世纪大和解，那么AI行业会发生什么？大愚人节的，我们给大伙整个活：盘点一下AI圈有哪些最知名，最持久，最让人闹心的矛盾。这些矛盾想要和解，前提条件是什么？和解了之后又会怎样？话不多说，咱们...

liutao988 0回复 1474浏览

AI

AI.x社区

51CTO

51CTO博客

51CTO学堂

全部帖子