编译 | 伊风
出品 | 51CTO技术栈(微信号:blog51cto)
在人工智能领域的竞争中,科技巨头们一直在竞相构建越来越大的语言模型。Scaling Law 信仰随着模型规模的增加,其性能会指数提升,展现出更好的泛化能力,甚至在某些情况下展现出“涌现”的能力。
然而,一个令人惊讶的新趋势正在浮现:小即是新大。随着大型语言模型(LLMs)的进步显示出一些趋于平稳的迹象,研究人员和开发者越来越多地将注意力转向小型语言模型(SLMs)。这些紧凑、高效且高度适应性强的人工智能模型正在挑战“越大越好”的观念,承诺将改变我们对人工智能开发的方法。
1.LLMs开始趋于平稳了吗?
最近由Vellum和HuggingFace发布的性能比较显示,LLMs之间的性能差距正在迅速缩小。这一趋势在特定任务中尤为明显,例如多项选择题、推理和数学问题,顶级模型之间的性能差异微乎其微。
例如,在多项选择题中,Claude 3 Opus、GPT-4和Gemini Ultra的得分都超过了83%,而在推理任务中,Claude 3 Opus、GPT-4和Gemini 1.5 Pro的准确率超过了92%。
有趣的是,即使是像Mixtral 8x7B和Llama 2 – 70B这样的小型模型,在某些领域,如推理和多项选择题,也显示出了令人惊喜的结果,它们在这些领域超过了一些较大的模型。这表明模型的大小可能并不是性能的唯一决定因素,其他方面,如架构、训练数据和微调技术,可能也扮演着重要角色。
最近宣布新的LLMs的研究论文都指向了同一个方向:“如果你只是从经验上看,最近十几篇文章都处于与GPT-4相同的一般领域,”Gary Marcus说,他是Uber AI的前负责人,也是关于构建可信人工智能的书籍《重启人工智能》的作者。Marcus在周四与VentureBeat进行了交谈。
“其中一些比GPT-4稍好,但没有质的飞跃。我认为每个人都会说GPT-4比GPT-3.5领先一代。但一年过去了,大模型仍然没有[质的飞跃],”Marcus说。
随着性能差距的持续缩小,越来越多的模型展示出竞争性的结果,这引发了一个问题,即LLMs是否真的开始趋于平稳。如果这一趋势持续下去,它可能对未来语言模型的开发和部署产生重大影响,可能将重点从简单地增加模型大小转移到探索更高效和专业化的架构。
2.LLM方法的缺点
LLMs虽然无疑很强大,但也伴随着显著的缺点。首先,训练LLMs需要大量的数据,需要数十亿甚至数万亿个参数。这使得训练过程极其资源密集,训练和运行LLMs所需的计算能力和能源消耗是惊人的。这导致了高昂的成本,使得较小的组织或个人难以参与核心LLM开发。去年在麻省理工学院的一个活动中,OpenAI首席执行官Sam Altman表示,训练GPT-4的成本至少为1亿美元。
其次,与LLMs合作所需的工具和技术的复杂性也呈现出陡峭的学习曲线,进一步限制了可访问性。对于开发者来说,从训练到构建和部署模型的周期时间很长,这减缓了开发和实验的速度。剑桥大学最近的一篇论文显示,公司可能需要90天或更长时间来部署一个单一的机器学习(ML)模型。
LLMs的另一个重大问题是它们容易产生幻觉——生成看似合理但实际上并不真实或事实的输出。这源于LLMs被训练来根据训练数据中的模式预测下一个最可能的单词,而不是真正理解信息。因此,LLMs可以自信地产生虚假陈述,编造事实或以荒谬的方式结合不相关的概念。检测和减轻这些幻觉是构建可靠和可信语言模型的一个持续挑战。
“你试图用它来解决一个高风险问题,如果你不想侮辱你的客户,或获得错误的医疗信息,或用它冒着生命危险来驾驶汽车。那仍然是一个问题,”Marcus警告说。
LLMs的规模和黑盒性质也使它们难以解释和调试,这对于建立对模型输出的信任也造成重大的障碍。训练数据和算法中的偏见可能导致不公平、不准确甚至有害的输出。正如谷歌Gemini所看到的,使LLMs“安全”和可靠的技术也可能降低它们的有效性。此外,LLMs的集中化性质也引发了关于权力和控制在少数大型科技公司手中的担忧。
3.小型语言模型(SLMs)的登场
小型语言模型(SLMs)是LLMs的更简化版本,参数更少,设计更简单。它们需要较少的数据和训练时间——想象一下几分钟或几个小时,而不像LLMs花费许多天。这使得SLMs更高效,更容易在现场或较小的设备上实施。
SLMs的一个关键优势是它们适合特定应用。因为它们的范围更集中,需要的数据更少,所以它们可以比大型通用模型更容易地针对特定领域或任务进行微调。这种定制使得公司能够创建针对其特定需求非常有效的SLMs,如情感分析、命名实体识别或特定领域的问答。与使用更通用的模型相比,SLMs的专业性质可以在这些目标应用中带来更好的性能和效率。
SLMs的另一个好处是它们对增强隐私和安全的潜力。由于代码库更小,架构更简单,SLMs更容易进行审计,不太可能有意外的漏洞。这使得它们对于处理敏感数据的应用具有吸引力,例如在医疗保健或金融领域,数据泄露可能会产生严重后果。此外,SLMs的计算需求减少,使它们更可行地在设备或本地服务器上本地运行,而不是依赖云基础设施。这种本地处理可以进一步提高数据安全性,减少在数据传输过程中的风险。
与LLMs相比,SLMs在其特定领域内不太可能出现未被发现的幻觉。SLMs通常在更狭窄、更有针对性的数据集上进行训练,这些数据集特定于其预期的领域或应用,这有助于模型学习与其任务最相关的模式、词汇和信息。这种专注减少了生成不相关、意外或不一致输出的可能性。由于参数更少,架构更简化,SLMs不太可能捕捉和放大训练数据中的噪声或错误。
AI初创公司HuggingFace的首席执行官Clem Delangue建议,高达99%的用例可以使用SLMs解决,并预测2024年将是SLM之年。HuggingFace的平台使开发者能够构建、训练和部署机器学习模型,该公司今年早些时候宣布与谷歌建立了战略合作伙伴关系。随后,两家公司将HuggingFace集成到谷歌的Vertex AI中,使开发者能够通过谷歌Vertex Model Garden快速部署数千个模型。
4.小型语言模型的变革潜力
随着人工智能社区继续探索小型语言模型的潜力,更快的开发周期、提高的效率以及根据特定需求定制模型的能力等优势变得越来越明显。SLMs有望民主化人工智能的获取,并通过对行业进行成本效益高和针对性的解决方案来推动创新。
在边缘部署SLMs为金融、娱乐、汽车系统、教育、电子商务和医疗保健等各个领域中实时、个性化和安全的应用程序开辟了新的可能性。
通过本地处理数据并减少对云基础设施的依赖,带有SLMs的边缘计算实现了更快的响应时间、改善的数据隐私和增强的用户体验。这种去中心化的人工智能方法有可能改变企业和消费者与技术互动的方式,在现实世界中创造更个性化和直观的体验。随着LLMs面临与计算资源相关的挑战,并可能达到性能平稳,SLMs的崛起承诺将以令人印象深刻的速度保持人工智能生态系统的发展。
根据彭博社报道,苹果计划在 iOS 18 中推出的第一组新人工智能功能将根本不依赖于云服务器。可见,随着AI能力在端侧的落地,小模型的时代才刚刚开始。
参考链接:https://venturebeat.com/ai/why-small-language-models-are-the-next-big-thing-in-ai/