许多老板将人工智能视为未来,许多技术领导者将ChatGPT视为人工智能的代名词。但ChatGPT并非唯一的大型语言模型,对于某些软件项目或领域而言,它甚至可能不是最佳选择。新的竞争对手几乎每天都在涌现,看起来每一个都想成为下一代人工智能工具。
某些模型是否比其他模型更好?或许是的。但所有这些模型都有缺陷或弱点,在使用过程中会逐渐发现这些弱点。生成式人工智能乍看起来令人惊叹,但随着时间推移,它难以预测的一面会开始显现出来。
语言模型基准测试
受模型的范围和使用方式的影响,科学地衡量生成式人工智能的回答质量很困难。数据科学家可以输入成千上万甚至数百万个测试问题并评估回答,但如果测试集只关注一种类型的问题,那评估结果的准确性也是受限的。也就是说,查阅类似Hugging Face的Open LLM Leaderboard这样的资源是有趣的,但未必准确。
尽管找到一种精确的方式来评估LLM(大型语言模型)的难度很大,但至少在它们之间进行切换现在并不困难了。像OpenLLM或FastChat等项目使得在不同的API和接口之间连接各种模型变得更简单。您可以将这些模型拼接在一起,有时甚至可以并行运行这些模型。
不能忽视的重要问题是成本。虽然每个研发团队都享受着关注和投资的激增,但构建一个大型语言模型可能需要几个月甚至几年的时间。团队首先组合训练数据,然后通过高耗能硬件进行数据处理。最后,他们生成模型。如何将这项工作变现并持续发展是一个不断演变的问题。
一些组织正在尝试将结果开源化,而其他人则愉快地依赖于具有自己计费模型的服务。开源LLM可以是一份真正的礼物,但前提是您能够处理部署模型和保持其运行所需的工作。
以下是14个非ChatGPT的大型语言模型示例。它们可能适合您的项目,也可能不适合。了解真相的唯一方法就是向它们发送提示并仔细评估结果。
Llama
这是一个基础的LLM,由Facebook(现在的Meta)创建,并将其作为其所宣称的”对开放科学的承诺“的一部分而发布出来。任何人都可以下载Llama并将其作为创建更精细调整模型的基础,用于特定应用程序(Alpaca和Vicuna都是基于Llama构建的)。该模型还提供四种不同规模的版本。较小的版本只有70亿个参数,已经在意想不到的地方使用。甚至有一位开发者声称已经使用只有4GB RAM的Llama在Raspberry Pi上运行。
Alpaca
一些斯坦福大学的研究人员使用Meta的Llama 7B,并将其训练成了一组与ChatGPT等指令遵循模型相似的提示。这个微调过程产生了Alpaca 7B,这个模型让普通人也可以通过提问和给予指示来获取Llama LLM中编码的知识。据估计,这种轻量级LLM可以在不到600美元的硬件上运行。
Alpaca 7B的创建者正在分发训练集和构建它的代码,任何人都可以复制该模型或基于不同数据集创建新模型。
Vicuna
Llama的另一个”后裔“是来自LMSYS.org的Vicuna。Vicuna团队收集了来自ShareGPT的70,000个不同对话的训练集,并特别关注创建多轮交互和指令遵循能力。Vicuna提供Vicuna-13b或Vicuna-7b两个版本,它是基本交互式聊天中价格竞争最激烈的开放解决方案之一。
NodePad
并非所有人都对LLMs生成的“语言准确”的文本感到着迷。NodePad的创建者认为,文本质量往往会分散用户注意力,使其无法仔细检查底层事实。具有良好用户界面的LLMs“往往无意中会美化结果,使用户更难以判断这些问题。”NodePad旨在培养探索和构思的能力,而不是产生用户只会草率浏览的完美写作样本。这个LLM生成的结果呈现为节点和连接,就像许多“思维导图工具”中所见,而不像成品写作。用户可以利用模型的百科全书知识来获得伟大的创意,而不会陷入演示中迷失方向。
Orca
第一代大规模语言模型通过增加规模不断取得成功。然而,微软团队的研究人员开发的Orca模型打破了这种趋势。该模型仅使用了130亿个参数,使其能够在普通计算机上运行。Orca的开发者通过改进训练算法来使用“解释轨迹”、“逐步思考过程”和“指令”来实现这一壮举。与其只要求AI从原始材料中学习不同,Orca被赋予了一个旨在进行教学的训练集。换句话说,就像人类一样,当AI不被投入到深水区时,它们学习得更快。初步结果很有希望,微软团队提供了基准测试数据,表明该模型的性能与规模更大的模型相当。
Jasper
Jasper的创建者不想构建一个无所不知的模型,他们想要一个专注于内容创作的模型。系统并非仅提供无限制的聊天会话,而是提供了50多个针对特定任务设计的模板,例如撰写房地产列表或为亚马逊等网站编写产品特点。付费版本专门面向希望以一致语调创建营销文案的企业。
Claude
Anthropic创建了Claude,旨在成为一个有用的助手,可以处理企业的许多基于文本的任务,包括研究和客户服务等。输入一个提示,输出一个答案。Anthropic特意允许长提示,以鼓励更复杂的指令,使用户对结果拥有更多控制权。Anthropic目前提供两个版本:名为Claude-v1的完整模型和更便宜、简化的版本Claude Instant,后者价格显著较低。前者适用于需要更复杂、结构化推理的工作,而后者在分类和审查等简单任务中速度更快、效果更好。
Cerebras
当专用硬件和通用模型共同演化时,您可以获得非常快速和高效的解决方案。Cerebras在Hugging Face上提供其LLM的各种规模,从小型(1.11亿个参数)到大型(130亿个参数),供那些想要在本地运行它的用户选择。然而,许多人可能希望使用云服务,这些云服务在Cerebras自己的芯片级集成处理器上运行,该处理器经过优化,可以高效处理大规模训练集。
Falcon
United Arab Emirates的科技创新研究院(Technology Innovation Institute,简称TII)开发了全尺寸的Falcon-40b和较小的Falcon-7b模型。他们使用来自RefinedWeb的大量通用实例对Falcon模型进行训练,重点改善了推理能力。然后,他们选择以Apache 2.0许可证发布该模型,使其成为最开放的可供实验无限制使用的模型之一。
ImageBind
许多人认为Meta是一家主导社交媒体的大公司,但它也是开源软件开发领域的强大力量。现在人们对人工智能的兴趣正在蓬勃发展,所以公司开始分享自己的许多创新并不令人意外。ImageBind是一个旨在展示人工智能如何同时创建多种不同类型数据的项目,包括文本、音频和视频。换句话说,生成式人工智能可以将整个想象世界拼接在一起,只要你允许它这样做。
Gorilla
你可能已经听说过使用生成式人工智能来编写代码的方法。结果在表面上看起来令人印象深刻,但仔细检查后会发现存在深层次的缺陷。语法可能是正确的,但API调用都是错误的,甚至可能指向不存在的函数。Gorilla是一个旨在更好地处理编程接口的LLM。它的创建者从Llama开始,然后针对直接从文档中获取的更深入的编程细节进行了微调。Gorilla团队还提供了自己基于API的一系列测试指标以测试成功率。这对于寻求依靠AI进行编码辅助的程序员来说是一个重要的补充。
Ora.ai
Ora是一个允许用户创建针对特定任务进行优化的定制聊天机器人。LibrarianGPT将尝试使用书中的直接段落回答任何问题。例如,卡尔·萨根教授是一个机器人,可以引用萨根的所有著作,使他可以生活在数十亿年的时间里。您可以创建自己的机器人,也可以使用其他人已经创建的数百个机器人之一。
AgentGPT
AgentGPT是另一个将应用程序所需的所有代码拼接在一起的工具。它旨在创建可以处理诸如规划度假或编写某种类型游戏代码等工作的代理。技术堆栈的许多源代码都可在GPL 3.0下获得。还提供了作为服务运行的版本。
FrugalGPT
FrugalGPT并不是一种不同的模型,而是一种寻找回答特定问题最便宜的模型的策略。开发FrugalGPT的研究人员认识到,许多问题并不需要最大、最昂贵的模型。他们的算法从最简单的模型开始,并按照级联的方式逐步选择更复杂的语言模型,直到找到一个合适的答案。
FrugalGPT旨在通过为每个具体问题选择最合适的模型来优化资源使用,从而在不降低准确性和效果的情况下降低成本。研究人员的实验证明,这种谨慎的方法可能节省高达98%的成本,因为许多问题实际上并不需要复杂的模型。
作者 | GENERATIVE AI INSIGHTS
原文链接 | https://www.infoworld.com/article/3700869/14-llms-that-arent-chatgpt.html