一夜之间,亚马逊来了个「弯道超车」。
在全球各大科技巨头都在拥抱如今最火的大模型、AIGC 的时候,亚马逊给人的印象只有一个:隐身。
虽然 AWS 一直在为 Hugging Face、Stability AI 等大模型明星公司提供机器学习算力,不过亚马逊很少透露合作的细节。有网友曾统计,在过去一段时间的财报财报会议上,亚马逊提到 AI 的次数几乎为零。
但如今,亚马逊的态度发生了巨大的变化。
4 月 13 日,亚马逊首席执行官安迪・贾西(Andy Jassy)发布了 2022 年度股东信,称他对亚马逊能够控制成本并继续投资于新的增长领域充满信心。他在信中 biaoshi,亚马逊未来将大力投资当下十分火爆的大型语言模型(LLM)和生成式人工智能(AI)领域。
贾西表示,在过去的几十年里,亚马逊在各种应用中使用机器学习。该公司现在正在开发自己的大语言模型,其有可能改善「几乎所有客户体验」。
话音未落,亚马逊的大模型及服务就被揭开了面纱。
「大多数公司都想用上大型语言模型,但真正好用的语言模型需要数十亿美元和多年的时间来训练,人们不想经历这些,」安迪・贾西表示。「因此,他们期待从一个已经非常庞大的基础模型中进行提升,然后能够根据自己的目的对其进行定制。这就是 Bedrock。」
亚马逊版 ChatGPT:是其云服务的一部分。
大模型
在最新的公告中,AWS 介绍了一组新模型 —— 统称为「Amazon Titan」。
Titan 系列模型分为两种,一种是用于内容生成的文本模型,另一种是可创建矢量嵌入的嵌入模型,用于创建高效搜索功能等。
文本生成模型类似于 OpenAI 的 GPT-4(但在性能方面不一定相同),可以执行诸如撰写博客文章和电子邮件、总结文档和从数据库中提取信息等任务。嵌入模型将文本输入(如单词和短语)翻译成数字表示形式,称为嵌入,其中包含文本的语义。
基于 OpenAI 语言模型的 ChatGPT 和微软 Bing 聊天机器人的人有时会产出不准确的信息,这是由于一种称为「幻觉」的行为,输出看起来很有说服力,但实际上与训练数据无关。
AWS 副总裁 Bratin Saha 在接受 CNBC 采访时表示,亚马逊「非常关心」准确性并确保其 Titan 模型产生高质量的响应。
客户将能够使用自己的数据定制 Titan 模型。但另一位副总裁表示,这些数据永远不会用于训练 Titan 模型,以确保包括竞争对手在内的其他客户最终不会从这些数据中受益。
Sivasubramanian 和 Saha 拒绝谈论 Titan 模型的大小或确定亚马逊用于训练它们的数据,Saha 也不愿描述亚马逊为删除模型训练数据中有问题的部分而遵循的过程。
云服务
Titan 模型的发布,其实是亚马逊「Bedrock」计划的一部分。全球最大的云基础设施提供商亚马逊,显然不会将这样一个迅速增长的领域留给谷歌和微软这些对手。
Bedrock 计划是在 OpenAI 发布 GPT-4 一个月后推出的。当时,微软已向 OpenAI 投资数十亿美元,并通过 Azure 云服务为 OpenAI 提供算力。这是亚马逊 AWS 业务面临的最强大的竞争。
Bedrock 云服务类似于由微软支持的初创公司 OpenAI 提供支持的 ChatGPT 聊天机器人背后的引擎。通过其 Bedrock 生成式人工智能服务,亚马逊网络服务将提供 Titan 等模型的访问。
该服务支持的初始基础模型集还包括来自 AI21、Anthropic 和 Stability AI 的模型,以及亚马逊自研的 Titan 系列新模型。Bedrock 的亮相,某种程度上预示着 AWS 在过去几个月与生成式 AI 初创公司达成了合作伙伴关系。
Bedrock 的关键优势在于,用户可将其与 AWS 云平台的其余部分集成在一起。这意味着组织将能够更轻松地访问存储在 Amazon S3 对象存储服务中的数据,并能够从 AWS 访问控制和治理策略中受益。
亚马逊目前没有透露 Bedrock 服务的成本,因为它还处于有限的预览阶段。一位发言人表示,客户可以将自己添加到等候名单中。此前,微软和 OpenAI 已经公布了使用 GPT-4 的价格,起价为每 1000 个 token 几美分,一个 token 相当于大约四个英文字符,而谷歌尚未公布其 PaLM 语言模型的定价。
AI 编程助手,免费向个人开放
我们知道,编程将是生成式 AI 技术得到快速应用的领域之一。今天,软件开发者需要花费大量时间编写相当浅显和无差别的代码,还得花不少时间学习复杂的新工具和技术,而这些工具和技术总在不断演进。因此,开发者真正用于开发创新功能与服务的时间少之又少。
为应对这一难题,开发者会尝试从网上复制代码片段再进行修改,但可能无意中复制了无效代码和有安全隐患的代码。这种搜索和复制的方式也浪费了开发者用于业务构建的时间。
生成式 AI 可以通过「编写」大部分无差别的代码来大大减少这种繁重的工作,让开发人员更快地编写代码,同时有更多时间专注在更具创造性的编程工作上。
2022 年,亚马逊宣布推出 Amazon CodeWhisperer 预览版。这款 AI 编程助手通过内嵌的基础模型,根据开发者用自然语言描述的注释和 IDE 中的既有代码实时生成代码建议,提升工作效率。预览版发布后得到了开发者的热烈响应,与未使用该编程助手的开发者相比,使用者完成任务的速度平均快 57%,成功率提高 27%。
现在,亚马逊宣布 CodeWhisperer 正式可用,免费向所有个人用户开放,不设任何资质或使用时长的限制。另外还提供引用跟踪和每个月 50 次的安全扫描服务。用户只需邮箱注册,无需亚马逊云服务账号。企业客户可以选择包含更多高级管理功能的专业版。
除了适用 Python、Java、JavaScript、TypeScript 和 C# 之外,CodeWhisperer 新增了对 Go、Kotlin、Rust、PHP 和 SQL 等 10 种开发语言的支持。开发者可以通过在 VS Code、IntelliJ IDEA、Amazon Cloud9 等集成开发环境中的 Amazon Toolkit 插件访问 CodeWhisperer,也可在 Amazon Lambda 控制台中使用。
亚马逊表示,除了从数十亿行公开代码中学习之外,CodeWhisperer 也基于亚马逊的代码进行了训练。因此它是目前为亚马逊云服务(包括 Amazon EC2 等)生成代码的最准确、最快和最安全的方式。
AI 编程助手生成的代码可能包含隐藏的安全漏洞,因此 CodeWhisperer 提供了内置安全扫描功能(通过自动推理实现),这是唯一一个这样做的。该功能查找难以检测的漏洞并提出补救建议,如十大开放式 Web 应用程序安全项目(OWASP)中的漏洞以及不符合加密库最佳实践的漏洞等。
此外,为了帮助开发人员以负责任的方式开发代码,CodeWhisperer 会过滤掉可能被认为有偏见或不公平的代码建议。同时由于客户可能需要对开源代码源进行参考或获得其使用许可,CodeWhisperer 还是唯一可以对疑似开源代码建议进行过滤和标记的编程助手。
小结
亚马逊在 AI 领域布局了 20 多年,而 AWS 已经拥有超过 10 万家 AI 客户。Sivasubramanian 表示,亚马逊一直在使用经过微调的 Titan 版本,通过其主页提供搜索结果。
然而,亚马逊只是在 ChatGPT 出现并走红后,推出生成式 AI 能力的大公司之一。Expedia、HubSpot、Paylocity 和 Spotify 都致力于整合 OpenAI 技术,亚马逊则不然。「我们总在一切准备就绪时行动,所有技术早已出现。」Sivasubramanian 这样说到。由于使用定制的 AI 处理器,亚马逊希望确保 Bedrock 易于使用且具有成本效益。
目前,C3.ai、Pegasystems 和 Salesforce 等公司都已准备引入 Amazon Bedrock。