Hugging Face是LLM新的GitHub

译文
人工智能
Hugging Face正在成为LLM新“GitHugging Face正在成为LLM新“GitHub”,并提供了简化LLM开发和部署的工具。 Hub”,并提供了简化LLM开发和部署的工具。

译者 | 李睿

审校 | 重楼

近年来,大型语言模型(LLM)席卷了科技行业,开辟了创新的新领域,颠覆了从搜索到客户服务的一切。支持这场人工智能革命的是GitHubHugging Face这样的开放生态系统,它使开发人员和企业能够快速构建、部署和扩展LLM。就像GitHub已经成为软件开发和协作的首选平台一样,Hugging Face现在正在成为所有与LLM相关事物的事实上的中心。

大型语言模型的兴起

GPT-3BERTPaLM这样的LLM可以让科技界发挥自己的想象力,它们能够生成类似人类的文本、回答问题、总结文档,甚至根据简单的文本提示编写代码。根据麦肯锡公司发布的一份研究报告,专注于LLM的自然语言处理初创公司的投资从2020年的1亿美元激增至2021年的15亿美元以上。

这种兴趣激增源于LLM在应对各种人工智能挑战方面的多功能性。例如,OpenAI公司的ChatGPT擅长于会话任务,而像Cohere的生成式自然语言处理API这样的工具可以总结文本并调节内容。LLM正在改变企业的运营方式,推动从智能搜索到自动化客户支持的各方的进步

麦肯锡公司估计,到2025年,LLM将在美国经济中每年创造2000亿至3000亿美元的经济价值。谷歌、Meta和微软等美国科技巨头以及初创公司都在竞相挖掘LLM的潜力。但是在LLM上构建、部署和迭代需要专门的基础设施和工具。

GitHub在软件协作中的关键作用

为了理解Hugging Face作为LLM中心日益重要的意义,可以了解GitHub在软件开发中扮演的不可或缺的角色。GitHub2008年推出,是用于版本控制和源代码管理的开源Git协议的先驱。

如今,GitHub拥有2亿多个代码库和8300万多名开发人员。它为开发人员提供了协作、审查代码、跟踪问题和发布软件的工具。GitHub已经成为软件团队运作不可或缺的一部分,微软公司在2018年以75亿美元收购GitHub就是一个例子。

根据StackOverflow2021年调查显示90%以上的开发人员使用GitHub。该平台的社交编码能力打破了软件开发中的障碍。开发人员可以利用开源项目来加速构建。而企业使用GitHub的企业产品来简化编码工作流程。GitHub深深植根于开发者文化,塑造了软件社区创建、扩展和部署代码的方式。

Hugging Face成为LLM的首选平台

就像GitHub推动了开源开发一样,Hugging Face正在引领LLM的开放生态系统方法。Hugging Face成立于2016年,最初专注于自然语言处理。在2020年,它转向LLM并创建了Transformer库,该库将不同的LLM架构(例如BERTGPT-2)与标准化API统一起来。

这个库通过抽象掉与LLM一起工作的复杂性,使LLM的访问民主化。如今,Hugging Face已经成为一个拥有20多万用户的充满活力的社区。其主要产品有:

  • 模型中心超过10万个人工智能模型的存储库,包括OpenAI公司的CLIPSalesforce公司的BLENDERLLM。它降低了使用LLM的门槛。
  • 标记器:预训练模型用于标记和编码LLM文本。对数据预处理至关重要。
  • 数据集:精心策划的数据集,用于培训和评估LLM
  • Spaces:用于部署、监控和扩展LLM驱动的应用程序的一个MLOps平台。
  • Infinite:基于GPT模型的维基风格数据集,用于生成自然语言查询的答案。

这套工具解决了LLM从发现到部署的整个开发生命周期。Hugging Face还构建了与Streamlight等平台的集成,实现了无代码LLM实验。

到目前为止,Hugging Face已经筹集了1亿美元的资金,这反映了日益飙升的知名度。去年,Hugging Face估值翻了五倍,达到20亿美元。国际顶级人工智能实验室和公司也在与Hugging Face合作。

LLM的GitHub

Hugging Face庞大的模型、数据集和开发工具中心为它赢得了“LLM GitHub”的绰号。它的模型中心是任何想要与LLM合作的人的起点。开发人员可以在其网站上找到Meta AIOPT-175B等模型的优化实现。

然后,他们可以通过Hugging FaceTransformers库无缝访问这些模型。这大幅降低了使用先进LLM的门槛企业不再需要从头开始构建自己的LLM。与其相反,他们可以采用Hugging Face预先设定的LLM,并对其进行微调,以适应搜索和分析等领域的定制用例。

Spaces支持协作构建、测试和部署LLM应用程序。结合Hugging Face的开放数据集和活跃的社区论坛,它复制了GitHubLLM量身定制的开源精神的核心元素。

美国一家大型科技公司的机器学习工程师Leo Zhao总结了Hugging Face在LLM工作流程中的融入:“每当我们需要一个新项目的LLM时,Hugging Face是我们所到的第一站。们的模型中心有大量的选项可供选择。只需几行代码,我们就可以立即标记并将数据提供给模型。Spaces使得在GPU集群上缩放模型训练变得容易。它确实是一个与LLM相关的一站式平台。

GitHub的类比也适用于Hugging Face如何围绕LLM培养协作社区。它的技术论坛已经成为数以万计的LLM开发人员和用户的重要知识和支持来源。Hugging Face通过其广受欢迎的LLM会议进一步培养了这个社区,使最新进展的访问民主化。

克服LLM采用的挑战

事实证明,Hugging Face在帮助企业克服采用LLM的关键障碍方面发挥了重要作用。根据麦肯锡公司进行的一项研究,企业LLM方面面临的最大挑战是评估价值和确定用例。Hugging Face通过集中广泛的LLM选择和推荐的微调数据集来缓解这一问题。

此外,将LLM投入生产会带来复杂的数据和基础设施问题。Hugging Face的端到端平台从模型访问到部署,为企业扫清了这些障碍。

大规模构建和运行LLM所需的财务投资也阻碍了LLM的采用。Hugging Face通过提供易于访问的预训练模型来降低成本。Space通过其无服务器架构和对可扩展云计算硬件(例如TPU)的支持进一步优化了支出。对于规模较小的团队和初创公司来说,这可以使大型LLM实验变得可行。

用LLM改变未来

展望未来, Hugging Face似乎有望继续发展成为LLM的中心。它的社区已经超过了流行的人工智能论坛。越来越多的开发人员和企业在他们的生产管道中依赖于像Transformers库和Tokenizers这样的工具。

LLM将推动市场营销、销售和财务等领域发生翻天覆地的变化。麦肯锡公司预计,LLM可以将30%45%的当前工作活动实现自动化,从而产生重大的社会影响。像Hugging Face这样降低LLM创新门槛的平台,将是实现其变革潜力的核心。

就像GitHub加速了软件工程一样,Hugging Face使开发人员和企业能够更快速、更有效地利用LLM的能力。对于日益增长的LLM驱动的经济来说,Hugging Face代表着通往未来的大门。它的综合平台可以催化新市场,开启人类与人工智能的大规模合作,开创下一个技术进步时代。

原文标题:Hugging Face Is the New GitHub for LLMs,作者:Arvind Bhardwaj

责任编辑:华轩 来源: 51CTO
相关推荐

2024-02-29 16:35:01

StarCoder2大型语言模型人工智能

2024-01-02 09:10:17

k开源数据

2023-12-06 15:40:17

AI

2024-08-28 08:25:25

Python预训练模型情绪数据集

2024-12-05 13:50:00

AI大模型

2024-10-08 09:30:00

AI模型

2024-09-26 10:42:20

2023-07-10 14:35:53

2024-06-21 08:42:54

BERTNLP自然语言处理

2024-11-15 08:24:41

2023-06-30 09:00:00

Falcon LLM开源

2023-11-28 13:53:00

数据模型

2024-11-13 08:34:32

T5聊天机器人大模型

2023-02-23 17:51:03

亚马逊云科技AI

2022-07-13 16:45:34

​大模型AI微软

2024-05-06 12:22:00

AI训练

2024-01-15 16:25:15

AI模型

2023-06-02 13:55:57

开源AI

2024-01-29 09:33:09

云计算人工智能谷歌云
点赞
收藏

51CTO技术栈公众号