LLM合集：MiniMax-01 开源，性能比肩 GPT-4o，上下文窗口领先 20-32 倍

发布于 2025-1-16 12:14

浏览

0收藏

1.MiniMax-01: Scaling Foundation Models with Lightning Attention

LLM合集：MiniMax-01 开源，性能比肩 GPT-4o，上下文窗口领先 20-32 倍-AI.x社区

我们推出了 MiniMax-01 系列，包括 MiniMax-Text-01 和 MiniMax-VL-01。这两款产品不仅性能可与顶尖模型相媲美，而且在处理更长文本上下文方面具备卓越能力。其核心技术是Lightning Attention及其高效的扩展方法。为充分发挥计算能力，我们将其与混合专家（MoE）技术相结合，打造出拥有 32 个专家模块、共计 4560 亿参数的模型，每个Token激活 459 亿参数。针对 MoE 和闪电注意力机制，我们开发了优化的并行策略以及高效的计算 - 通信重叠技术。通过这种方式，我们能够在包含数百亿参数的模型上，对数百万Token长度的上下文进行高效的训练与推理。MiniMax-Text-01 在训练时上下文窗口可达 100 万个Token，推理时以较低成本外推至 400 万个Token。我们的视觉 - 语言模型 MiniMax-VL-01 则通过使用 5120 亿视觉 - 语言Token持续训练构建而成。在标准和内部基准测试中，我们的模型性能与 GPT-4o、Claude-3.5-Sonnet 等最先进模型相当，但上下文窗口长度却是它们的 20 - 32 倍。我们已在https://github.com/MiniMax-AI上公开发布 MiniMax-01 。

论文: https://arxiv.org/pdf/2501.08313

2. Diffusion Adversarial Post-Training for One-Step Video Generation

LLM合集：MiniMax-01 开源，性能比肩 GPT-4o，上下文窗口领先 20-32 倍-AI.x社区

扩散模型在图像和视频生成领域应用广泛，但其迭代生成过程缓慢且成本高昂。尽管现有的蒸馏方法已在图像领域展现出一步生成的潜力，但生成质量仍显著下降。在本文中，我们提出在扩散预训练之后，针对真实数据采用对抗后训练（APT）方法，实现一步视频生成。

为提升训练稳定性和生成质量，我们对模型架构和训练流程进行了多项改进，并引入了近似的 R1 正则化目标。实验表明，经对抗后训练的模型 Seaweed - APT，能够在单步前向评估中实时生成 2 秒时长、分辨率为 1280×720、帧率 24fps 的视频。此外，该模型还能一步生成 1024 像素的图像，生成质量与当前最先进的方法相当。

论文: https://arxiv.org/pdf/2501.08316

3.MangaNinja: Line Art Colorization with Precise Reference Following

LLM合集：MiniMax-01 开源，性能比肩 GPT-4o，上下文窗口领先 20-32 倍-AI.x社区

MangaNinjia 源于扩散模型，专门用于参考引导的线稿上色任务。为确保精准转录角色细节，我们融入了两项精心设计：一是补丁混洗模块，助力参考彩色图像与目标线稿之间的对应关系学习；二是点驱动控制方案，实现精细的色彩匹配。在自行收集的基准数据集上进行的实验表明，我们的模型在精准上色方面优于当前的其他解决方案。我们还展示了所提出的交互式点控制在处理复杂情况、跨角色上色、多参考图像协调等方面的潜力，这些都是现有算法难以企及的。

论文: https://arxiv.org/pdf/2501.08332

4.Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models

LLM合集：MiniMax-01 开源，性能比肩 GPT-4o，上下文窗口领先 20-32 倍-AI.x社区

文本转图像（T2I）扩散模型依靠编码后的提示词来引导图像生成过程。通常，在对文本进行编码之前，这些提示词会通过添加填充标记扩展到固定长度。尽管这是一种默认做法，但填充标记对图像生成过程的影响却从未有人研究过。在这项研究中，我们首次深入分析了填充标记在 T2I 模型中所起的作用。

我们开发了两种因果分析技术，用于剖析在 T2I 流程的不同组件中，信息是如何编码到标记表示中的。借助这些技术，我们探究了填充标记何时以及如何影响图像生成过程。我们的研究结果揭示了三种不同的情况：填充标记可能在文本编码阶段、扩散过程中影响模型输出，或者被模型有效忽略。此外，我们还明确了这些情况与模型架构（交叉注意力或自注意力）及其训练过程（文本编码器冻结或训练）之间的关键联系。这些见解有助于我们更深入地理解填充标记的作用机制，有望为未来 T2I 系统的模型设计和训练方法提供参考。

论文: https://arxiv.org/pdf/2501.06751

本文转载自AI-PaperDaily，作者： AI-PaperDaily

标签

LLM

MiniMax

GPT-4o