部署自己的大型语言模型的七种方法-51CTO.COM

从零开始构建一个新的大型语言模型(LLM)是一种选择，但对于许多公司来说，成本可能高得难以承受。幸运的是，还有其他几种部署定制LLM的方法，这些方法更快、更容易，而且最重要的是，更便宜。

GenAI是历史上发展最快的新技术。它正在改变世界，根据9月发布的美国3000多名在职成年人的实时人口调查，四分之一的人在上一周至少使用过一次GenAI进行工作，近11%的人每天都在使用。

因此，与互联网相比，这项新技术的采用速度大约快了一倍。在S&P Global Market Intelligence代表Weka发布的一份最近报告中，88%的受访企业使用GenAI，24%的企业将其作为工作流程中的集成能力。

更具体地说，LLM是一种专注于文本和代码而不是图像或音频的GenAI，尽管有些LLM已经开始整合不同的模态。当前企业中最受欢迎的LLM有ChatGPT和其他OpenAI GPT模型、Anthropic的Claude、Google的Gemini、Meta的Llama，以及由Meta和Google的DeepMind前员工创建的开源项目Mistral。

随着势头不断增强，以及行业压力要求更直接地应用GenAI，我们研究了公司当前在部署LLM时面临的七种不同程度的复杂性，以及他们为确保竞争优势而愿意付出的努力。

引入聊天机器人

聊天机器人是公司在工作中开始使用GenAI的最简单方式。对于风险最低的使用场景，如AI驱动的互联网搜索或公共文档总结，有免费的公共选项可供选择。这些聊天机器人也有企业版，供应商承诺保证所有对话的安全，不会将其用于训练AI。

根据Netskope Threat Labs 7月的一份报告，96%的企业使用GenAI聊天机器人，一年前这一比例为74%。在企业中，ChatGPT是最受欢迎的通用GenAI聊天机器人平台，使用率为80%。其次是Microsoft Copilot，使用率为67%，Google Gemini的使用率为51%。

此外，企业软件供应商越来越多地在其平台中嵌入GenAI功能。例如，Grammarly和Salesforce都具有GenAI功能。大多数主要的企业软件供应商要么已经推出了一些GenAI功能，要么已将其纳入路线图。

“当然，今年以及未来两年，你能归因于GenAI的大部分价值创造，将体现在你的搜索引擎、应用程序和工具中的副驾驶或助手功能上，”全球咨询公司SSA & Company应用解决方案负责人Nick Kramer表示。

在其评估中，Gartner预测，到2026年，超过80%的企业软件供应商将具备GenAI功能，而3月时这一比例还不到5%。

应用程序编程接口

下一个最常见的GenAI部署策略是在企业平台中添加应用程序编程接口(API)。例如，如果员工使用某个应用程序来跟踪会议，那么可以使用API自动生成会议记录的摘要。Gartner表示，到2026年，超过30%的API需求增长将来自GenAI。

“你可以通过基于使用量的定价模型访问大型科技公司创建的商用LLM的API，”Kearney数字和分析实践合伙人Bharath Thota表示。“许多云提供商让人们能够轻松访问这些LLM。”

他表示，对于像总结报告这样的任务，可以直接使用LLM，而无需检索增强生成(RAG)嵌入或微调;只需使用提示本身，但这取决于需要解决的业务问题。这是一种低风险、低成本的方式，可以在不产生大量开销的情况下为企业系统添加GenAI功能。这也是公司学习这些API的工作原理以及如何创建有效提示的机会。

根据OpenAI的数据，92%的《财富》500强公司正在使用其API，并且由于新模型的发布、成本降低和性能提高，自7月以来其使用量已翻倍。

向量数据库和检索增强生成

对于大多数希望定制其LLM的公司来说，检索增强生成(RAG)是最佳选择。如果有人谈论嵌入或向量数据库，通常指的就是这个。它的工作原理是，如果用户询问有关公司政策或产品的问题，该问题不会立即发送给LLM。相反，它会首先进行处理，以确定用户是否有权访问该信息。如果有访问权限，则会检索所有可能相关的信息，通常是从向量数据库中检索。然后，将问题和相关信息发送给LLM，并嵌入到一个优化后的提示中，该提示还可能指定答案的首选格式和LLM应使用的语气。

向量数据库是一种通过一系列列表来企业信息的方式，每个列表都根据不同的属性进行排序。例如，如果有一个按字母顺序排列的列表，那么你的回复在该顺序中越接近，就越相关。字母顺序列表是一维向量数据库，但它们可以有无限维度，允许你根据与任意数量因素的接近度来搜索相关答案。这使得它们非常适合与LLM结合使用。

“现在，我们正在将所有内容转换为向量数据库，”销售参与平台供应商Salesloft的首席产品和工程官Ellie Fields表示。“是的，它们确实有效。”

她说，这比使用简单文档来为LLM查询提供上下文更有效。该公司主要使用ChromaDB，这是一个开源的向量存储库，其主要用途是为LLM服务。Salesloft使用的另一个向量数据库是PGVector，这是PostgreSQL数据库的向量相似性搜索扩展。

“但我们也使用FAISS和Pinecone进行了一些研究，”Fields表示。FAISS(Facebook AI Similarity Search)是Meta提供的开源库，支持在多媒体文档中进行相似性搜索。

Pinecone是一个专有的基于云的向量数据库，也受到开发者的欢迎，其免费层级支持多达10万个向量。一旦从向量数据库中检索到相关信息并嵌入到提示中，就会将其发送到在Microsoft Azure上私有实例中运行的OpenAI。

“我们让Azure在我们的平台上通过了新子处理器的认证，”Fields表示。“我们总是会让客户知道我们有了新的信息处理器。”

但Salesloft也与Google和IBM合作，并且正在开发一种也使用这些平台的GenAI功能。

“我们肯定会与不同的供应商和不同的模型合作，”她表示。“情况每周都在变化。如果你不看不同的模型，你就会错失良机。”因此，RAG允许企业将专有数据与模型本身分离，从而能够更轻松地随着更好模型的发布而更换模型。此外，向量数据库可以实时更新，无需对模型进行更多的微调或重新训练。

有时不同的模型有不同的API。但更换模型仍然比重新训练更容易。“我们还没有找到一个使用场景，通过微调而不是向量数据库能获得更好的效果，”Fields补充道。“我相信有这样的使用场景，但到目前为止，我们还没有找到一个表现更好的。”

Salesloft推出的LLM的首批应用之一是添加了一个功能，让客户能够为潜在客户生成销售电子邮件。“客户要花很多时间来写这些电子邮件，”Fields表示。“很难开始，而且经常会遇到写作障碍。”所以现在客户可以指定目标人物、价值主张和行动号召，然后他们会收到三封不同的电子邮件草稿，可以根据需要进行个性化定制。

本地运行的开源模型

Constellation Research副总裁兼首席分析师Andy Thurai清楚地看到，开源LLM已经变得非常强大。例如，Meta刚刚发布了具有新视觉功能的几种尺寸的Llama 3.2模型，并表示这些模型已被下载了近3.5亿次，在一年内增长了10倍，并且有6万多个针对特定使用场景进行微调的衍生模型。

根据Chatbot Arena LLM排行榜，Meta的顶级Llama模型在质量上与OpenAI的GPT 4和Anthropic的Claude 3.5 Sonnet相当。

“虽然Llama具有早期优势，但许多其他企业公司也在创建自己的开源LLM版本，”Thurai表示，包括IBM的Granite模型、AWS的Titan，以及Google的几个开源模型。鉴于这种增长趋势，API公司Kong最近对数百名IT专业人士和商业领袖进行了一项调查，结果显示大多数企业直接使用或通过Azure AI使用OpenAI，其次是Google Gemini，而Meta的Llama位居第三。

开源模型有多种尺寸，这对企业来说是一个优势，因为较小的模型更便宜、更快。

“许多企业正在从试验阶段转向部署模式，推理和优化的成本正在成为一个大问题，”图拉伊(Thurai)说。“他们中的很多人在想要部署的规模上遭遇了成本冲击。”

总部位于波士顿的Ikigai Labs也提供了一个平台，允许公司构建定制的大型图形模型，或设计用于处理结构化数据的人工智能模型。但为了让界面更易于使用，Ikigai利用大型语言模型(LLM)为其前端提供支持。例如，该公司使用了拥有70亿参数的Falcon开源LLM，并在自己的环境中为一些客户运行它。

Ikigai的联合创始人兼联合首席执行官德瓦夫拉特·沙阿(Devavrat Shah)表示，为了给LLM提供信息，Ikigai使用了一个也在本地运行的向量数据库。“四年前在麻省理工学院，我和我的一些学生试验了大量的向量数据库，”同时也是麻省理工学院人工智能教授的沙阿说。“我知道它会有用，但没想到这么有用。”

他说，将模型和向量数据库都保持在本地意味着数据不会泄露给第三方。“对于愿意将查询发送给其他人的客户，我们使用OpenAI，”沙阿说。“我们对LLM持开放态度。”

还有普华永道，该公司构建了自己的ChatPwC工具，并且也对LLM持开放态度。“ChatPwC让我们的员工更有能力，”该公司合伙人兼GenAI(gen AI)市场化战略负责人布雷特·格林斯坦(Bret Greenstein)说。例如，它包含预构建的提示和嵌入，以实现诸如生成职位描述等用例。“这是为了使用我们的格式、模板和术语，”他说。“为了创建这个，我们有人力资源、数据和提示专家，我们优化了用例以生成良好、一致的职位发布。现在，最终用户不需要知道如何提示来生成职位描述。”

该工具构建于Microsoft Azure之上，该公司还为其构建了适用于Google Cloud Platform和AWS的版本。“我们必须服务我们的客户，而他们在每一片云上都存在，”格林斯坦说。同样，它也被优化为在后端使用不同的模型，因为这就是客户的需求。“我们让每一个主要模型都运行起来，”他补充说。“Claude、Anthropic、OpenAI、Llama、Falcon——我们应有尽有。”

当然，市场正在快速变化，格林斯坦建议企业对人工智能部署采取无悔政策。

“人们可以做很多事情，比如独立于模型构建自己的数据，并建立治理体系，”他说。然后，当市场发生变化，新的模型和技术出现时，数据和治理结构仍然具有相关性。

微调

管理咨询公司AArete在AWS Bedrock的Claude 2.5 Sonnet上使用基于少量学习的微调。“我们是AWS Bedrock在美国东部-1区域的最大用户，”该公司数字技术服务副总裁普丽雅·伊拉加瓦拉普(Priya Iragavarapu)说。“我们已经能够有效地将我们的GenAI应用投入生产。”

如果AArete使用托管模型并通过API连接到它，就会产生信任问题。“我们担心提示中的数据最终会去向何方，”她说。“我们不想冒这些风险。”

在选择开源模型时，她会查看它之前被下载的次数、社区支持情况以及硬件要求。

“基础模型从去年开始已经变得非常强大，以至于我们不需要担心任务相关性的有效性输出，”她说。“现在唯一的区别是模型在可以接受的token数量和版本控制方面的差异。”

金融界和医疗保健行业的许多公司都在基于自己的附加数据集对LLM进行微调。基础的LLM是在整个互联网上训练的，但通过微调，公司可以创建一个专门针对其业务用例的模型。实现这一目标的常见方法是创建一个问题和答案列表，并基于这些对模型进行微调。事实上，OpenAI从2023年8月开始允许使用问答方法对GPT 3.5模型进行微调，并在11月的DevDay上推出了一套新的微调、定制和检索增强生成(RAG)选项。这对于客户服务和帮助台应用程序特别有用，因为公司可能已经有一个常见问题解答(FAQ)数据库。

普华永道的格林斯坦表示，构建SaaS应用等应用程序的软件公司可能会使用微调。“如果你有一个高度可重复的模式，微调可以降低你的成本，”他说，但在企业部署中，RAG在高达95%的情况下效率更高。

从零开始

很少有公司会从头开始构建自己的LLM。OpenAI的GPT 3有1750亿个参数，在45TB的数据集上进行训练，训练成本为460万美元。据OpenAI首席执行官萨姆·奥特曼(Sam Altman)称，GPT 4的成本超过1亿美元。正是这种规模赋予了LLM处理人类语言的魔力，以及一定程度的常识和遵循指令的能力。

Insight的首席数据官卡姆·塔利亚蒂(Carm Taglienti)说：“虽然你可以创建自己的LLM，但这需要大量的数据和计算能力投资。”“从头开始训练模型需要足够的数据量，才能基于你的数据执行你期望的LLM任务。”

然后，一旦模型完成了基础训练，就需要进行带有人类反馈的强化学习(RLHF)步骤，这是模型以适当方式与用户交互所必需的。

如今，几乎所有的LLM都来自大型超大规模企业或专注于人工智能的初创公司，如OpenAI和Anthropic。即使是有丰富构建自己模型经验的公司也避免创建自己的LLM。例如，Salesloft多年来一直在构建自己的AI和ML模型，包括使用早期技术的通用AI模型，但对于从头开始构建一个全新的、尖端的基础模型却犹豫不决。

“这是一个巨大的计算步骤，至少在现阶段，我看不到我们会这样做，”菲尔德斯(Fields)说。

模型花园

对于最成熟的公司来说，一个通用AI模型是不够的。不同的模型适用于不同类型的用例，并且与它们相关的成本和性能指标也不同。而且不断有新玩家进入这个领域，超越已有的巨头。此外，一些模型可以在本地或托管数据中心运行，这可以降低公司的成本或提供额外的安全性或灵活性。为了利用这些选项，公司创建了精心策划的模型花园，即经过仔细审查的LLM私有集合，包括定制模型或微调模型，并使用路由系统将请求引导到最合适的模型。“还没有多少公司做到这一点，”凯尔尼(Kearney)的托塔(Thota)说。“这很复杂，但我相信这就是未来。”