微软最新发布的Phi-3.5系列AI模型,标志着小语言模型领域迎来又一波重大进展。该家族由三款模型构成:Phi-3.5-mini-instruct、Phi-3.5-Mixture of Experts-instruct以及Phi-3.5-vision-instruct,各个模型均提供特定功能,旨在提高AI技术在不同任务下的性能表现。此版本彰显出微软致力于推动AI技术发展,同时维持良好效率与可及性的探索与尝试。
Phi-3.5模型家族概述
Phi-3.5-mini-instruct模型包含38亿参数,针对快速推理任务进行了优化。该模型在代码生成以及逻辑/数学问题的解决等领域表现相当出色。尽管与其他模型比较其规模相对较小,但却在各种性能基准测试当中拥有可与Meta Llama 3.1以及Mistral 7B等大模型相媲美的性能。微软致力于使其成为一套既强大、又高效的模型,这也代表着软件巨头致力于打造一款能够在资源受限环境下部署的高质量AI工具。
家族中的第二位成员Phi-3.5-Moe-instruct是三套模型中体量最大的一位,拥有420亿参数。不过得益于其混合专家架构,在任何给定操作期间,只有66亿参数处于活动状态。这样的设计使该模型能够高效处理跨多种语言的复杂AI任务。MoE方法使得模型能够仅激活与给定任务关联度最高的“专家”子模型,从而提高性能与资源利用率。该模型在需要多语言能力的任务当中特别有效,甚至优于谷歌Gemini 1.5 Flash等由竞争对手打造的更大模型。
第三套模型Phi-3.5-vision-instruct则将该家族的功能扩展到了多模态领域。此模型拥有42亿参数,能够处理文本和图像,适合光学字符识别、图表分析乃至视频摘要等任务。该模型在处理复杂视觉任务时表现出的能力,与业界体量更大的多模态模型几乎不相上下。
更多Phi-3.5高级功能
Phi-3.5家族最令人印象深刻的功能之一,就是所有模型都可支持高达12.8万token的长上下文窗口。此功能允许模型处理和生成大量数据,因此适合用于处理长文档、复杂对话乃至涉及多媒体内容的实际应用。在这么长的输入序列中保持一致性以及对上下文的感知能力,已经成为众多现代AI应用程序的一项关键需求。
训练这些模型当然离不开庞大的算力资源。例如,Phi-3.5-mini-instruct模型就以10天为周期使用到512张H100 GPU在3.4万亿个token上进行了训练。Phi-3.5-MoE模型的训练范围更广,在23天之内在4.9万亿个token上进行了训练,且同样使用512张H100 GPU。最后,Phi-3.5-vision-instruct模型在6天之内在5000亿token上进行了训练,且使用到256张A100 GPU。这种立足高质量、推理密集型公开数据集进行了密集训练,也让Phi-3.5模型家族拥有了令人印象深刻的功能表现。
开源与可及性
为了履行公司的开源承诺,微软已经根据开源MIT许可证对外发布Phi-3.5模型家族。开发人员可以通过Hugging Face平台访问这些模型,将其下载、修改并集成到自己的项目当中,且不受商业使用的限制。这种开源方法有望激发出更广泛的采用和实验,特别是在那些需要高级AI功能的加持、但却不具备从头开始训练模型的必要资源的应用领域。
竞争格局与影响
微软为Phi-3.5家族定下的战略就是开发出更小、更高效的AI模型,尽可能使其在特定任务中带来超越更大模型的表现。这种对效率的关注带来了几大关键优势,包括减少算力要求、加快推理时间以及因能耗降低而实现的环境友好能力。这些优势的存在,使得Phi-3.5模型家族特别适合部署在资源相对有限的边缘计算场景以及大规模云环境当中。
此次发布中最值得注意的方面之一,则在于微软宣称这些模型在特定任务当中可以用过谷歌、Meta甚至是OpenAI等竞争对手发布的更大体量模型。如果这些说法在后续实际应用当中得到验证,那么很可能预示着AI格局将发生转变,即模型效率将变得与原始规模及参数数量同等重要。这种方法挑战了以往AI开发领域“越大越好”的固有观点,有望引领AI开发进入一个专注于可持续性和可及性的新时代。
Phi-3.5家族代表着微软在AI研发方面迈出的重要一步。通过专注于打造体量更小、效率更高、能够处理各种任务的模型,微软希望就当前市场对于功能强大且资源高效的AI解决方案的旺盛需求交出一份令人满意的答卷。