微软发布强大的新Phi-3.5模型，击败谷歌、OpenAI等-51CTO.COM

微软并没有满足于与OpenAI的合作取得的AI成功，这家总部位于华盛顿州，被称为“Redmond”的公司，今天推出了其不断演进的Phi系列语言/多模态AI中的3个新模型，展示了其不懈的进取心。

这三款新的Phi 3.5模型包括：拥有38.2亿参数的Phi-3.5-mini-instruct，拥有419亿参数的Phi-3.5-MoE-instruct，以及拥有41.5亿参数的Phi-3.5-vision-instruct，分别针对基础/快速推理、更强大的推理以及视觉(图像和视频分析)任务设计。

所有这三款模型都可供开发者在Hugging Face上下载、使用，并根据需要进行微调和自定义，使用的是微软品牌的MIT许可协议，允许商业使用和修改，无任何限制。

令人惊讶的是，这三款模型在许多第三方基准测试中表现出接近最先进的性能，甚至在某些情况下超越了其他AI供应商的产品，包括Google的Gemini 1.5 Flash、Meta的Llama 3.1，甚至OpenAI的GPT-4o。

Phi-3.5 Mini Instruct：为计算资源受限的环境优化

Phi-3.5 Mini Instruct模型是一款轻量级AI模型，拥有38亿参数，专为遵循指令设计，并支持128k token的上下文长度。

该模型非常适合在内存或计算资源受限的环境中需要强大推理能力的场景，包括代码生成、数学问题求解和基于逻辑的推理任务。

尽管体积小巧，Phi-3.5 Mini Instruct模型在多语言和多轮对话任务中表现出竞争力，相较于其前代产品有显著的改进。

它在多个基准测试中展现了接近最先进的性能，并在“长上下文代码理解”的RepoQA基准测试中超越了其他类似大小的模型(Llama-3.1-8B-instruct和Mistral-7B-instruct)。

Phi-3.5 MoE：微软的‘专家混合’

Phi-3.5 MoE(专家混合)模型似乎是微软首次推出的此类模型，它将多种不同类型的模型结合在一起，每种模型专门针对不同的任务。

该模型采用了具有420亿活跃参数的架构，支持128k token的上下文长度，为需求苛刻的应用提供可扩展的AI性能，然而，根据Hugging Face的文档，该模型实际上只使用了66亿的活跃参数。

Phi-3.5 MoE模型专为在各种推理任务中表现出色而设计，在代码、数学和多语言理解方面表现出强劲的性能，常常在特定基准测试中超越更大规模的模型。

它在STEM(科学、技术、工程和数学)、人文学科和社会科学等多个学科的5-shot MMLU(Massive Multitask Language Understanding)测试中，表现优异，甚至超越了GPT-4o mini。

MoE模型的独特架构使其在处理多语言复杂AI任务时保持高效。

Phi-3.5 Vision Instruct：高级多模态推理

作为Phi系列的最后一款模型，Phi-3.5 Vision Instruct模型整合了文本和图像处理功能。

这一多模态模型特别适合于一般图像理解、光学字符识别、图表和表格理解以及视频摘要等任务。

与Phi-3.5系列中的其他模型一样，Vision Instruct支持128k token的上下文长度，使其能够处理复杂的多帧视觉任务。

微软强调，该模型是通过合成数据和经过筛选的公开数据集训练的，重点在于高质量和富含推理的数据。

新Phi三款模型的训练

Phi-3.5 Mini Instruct模型在使用512个H100-80G GPU的情况下，经过10天的训练，处理了3.4万亿个tokens，而Vision Instruct模型则使用256个A100-80G GPU，经过6天的训练，处理了5000亿个tokens。

采用专家混合架构的Phi-3.5 MoE模型，使用512个H100-80G GPU，在23天内处理了4.9万亿个tokens。

MIT许可下的开源

所有三款Phi-3.5模型均在MIT许可协议下发布，体现了微软对支持开源社区的承诺。

此许可允许开发者自由使用、修改、合并、发布、分发、再许可或出售软件的副本。

该许可还包括免责声明，即软件是“按原样”提供的，不附带任何形式的保证。微软及其他版权持有人不对因使用该软件而引发的任何索赔、损害或其他责任承担责任。

微软发布的Phi-3.5系列代表了多语言和多模态AI开发的一个重要进展。

通过以开源许可的形式提供这些模型，微软使开发者能够将最先进的AI能力集成到他们的应用中，从而推动商业和研究领域的创新。