马斯克的 Grok AI 开源
埃隆·马斯克(Elon Musk)的初创公司xAI开源了其第一个大型语言模型(LLM)Grok。
现在使任何其他企业家、程序员、公司或个人能够接受Grok的权重——模型的人工“神经元”或软件模块之间的连接强度,允许模型做出决策并接受输入并以文本形式提供输出——以及其他相关文档,并将模型的副本用于他们想要的任何内容,包括用于商业应用。
“我们正在发布我们的大型语言模型Grok-1的基本模型和网络架构,”该公司在一篇博客文章中宣布。“Grok-1 是一个 3140 亿参数的专家混合模型,由 xAI 从头开始训练。”
有兴趣的人可以在 Grok 的 Github 页面上或通过 torrent 链接下载代码。Hugging Face 还在这里添加了一个快速下载实例。
Grok 的开源意味着什么
参数是指控制模型的权重和偏差——参数越多,通常模型越先进、越复杂、性能越好。Grok 拥有 3140 亿个参数,远远领先于 Meta 的 Llama 2(700 亿个参数)和 Mistral 8x7B(120 亿个参数)等开源竞争对手。
Grok 是在 Apache 许可证 2.0 下开源的,该许可证允许商业使用、修改和分发,尽管它不能被注册为商标,并且用户不会因此而获得任何责任或保证。此外,他们必须复制原始许可证和版权声明,并说明他们所做的更改。
Grok 的架构于 2023 年 10 月使用 JAX 和 Rust 上的自定义训练堆栈开发,融合了神经网络设计的创新方法。该模型将 25% 的权重用于给定的token,这是一种提高其效率和有效性的策略。
Grok 最初于 2023 年 11 月作为专有或“闭源”模型发布,到目前为止,它只能在马斯克独立但相关的社交网络 X(前身为 Twitter)上访问,特别是通过 X Premium+ 付费订阅服务,每月收费 16 美元或每年 168 美元。
但是,Grok 的发布并未包含其训练数据的完整语料库。这对使用模型来说并不重要,因为它已经被训练过了,但它不允许用户看到它从中学到了什么——大概是用户在 X 上的文本帖子(xAI 博客文章不透明地将其描述为“在大量文本数据上训练的基本模型,未针对任何特定任务进行微调。
它也不包括与X上可用的实时信息的任何连接,马斯克最初将其吹捧为Grok相对于其他LLM的主要属性。为此,用户仍然需要订阅 X 上的付费版本。
不仅仅是一项技术举措,更是一项商业和公关策略
旨在与马斯克于 2018 年共同创立并与之分道扬镳的 OpenAI 制造的 ChatGPT 相媲美,现在与之竞争,Grok 以意为“理解”的俚语命名,并被描述为“以银河系漫游指南为蓝本的人工智能”,这是英国作家道格拉斯·亚当斯 (Douglas Adams) 于 1970 年代开创性的广播剧和讽刺科幻系列丛书(2005 年被改编成一部主要电影)。
马斯克将 Grok 定位为 ChatGPT 和其他领先的 LLM 的更幽默和未经审查的版本,鉴于对 AI 审查制度的抱怨和谷歌 Gemini 令人尴尬的种族混乱图像生成和可疑的意识形态立场,这一立场在用户中具有新的吸引力(Gemini 至少在一个例子中暗示,马斯克的推文可能与纳粹领导人阿道夫·希特勒一样对社会有害).当然,Gemini受到了马斯克和其他有影响力的科技领袖的强烈批评,包括a16z联合创始人和网络先驱马克·安德森(Marc Andreessen)。
Grok 的开源显然也是马斯克在诉讼和对 OpenAI 的一般批评中有用的意识形态立场,他最近起诉了 OpenAI,指责他的前公司放弃了其“创始协议”,以非营利组织的形式运营。OpenAI至少在舆论法庭上发布了为其辩护的电子邮件,表明马斯克意识到并可能支持其转向专有的营利性技术。
X 上的 AI 社区已经对这个版本做出了好奇和兴奋的反应。值得注意的是,技术界指出了该模型在前馈层中使用GeGLU及其归一化方法,以致 OpenAI 的员工也发布了他们对该模型的兴趣。
因此,Grok 的发布可能会给所有其他 LLM 提供商带来压力,尤其是其他竞争对手的开源提供商,要求他们向用户证明他们的优势。
本文转载自 AI技术和商业思维 ,作者: 学习中的Leo
原文链接:https://mp.weixin.qq.com/s/T4iQLt4mbS5CPpDHa38OAw