
2024 AI行业革新大事记
智能体崛起
人工智能界为能够自主行动的系统奠定了基础,通过迭代提示大型语言模型,在各种应用中实现了性能的大幅提升。
发生了什么
“智能体” 成为了人工智能领域的新热词。研究人员、工具供应商和模型开发者纷纷为大型语言模型 (LLM) 赋予了决策和行动能力,以实现特定目标。这些进展预示着来年及未来智能体应用将迎来爆发式增长。
幕后推手
多种工具的出现,助力开发者构建智能体工作流程。
技术解析
更加精细地提示 LLM 的技术在 2022 年开始崭露头角,并在今年年初汇聚成智能体人工智能的发展趋势。这项工作的基本范例包括:
- 思维链 提示:引导 LLM 逐步思考。
- 自我一致性:提示模型生成多个响应,并选择与其它响应最一致的那个。
- ReAct:交错推理和行动步骤以达成目标。
- 自我优化:使智能体能够反思自身的输出。
- 反思:使模型能够行动、评估、反思并重复。
- 测试时计算:增加分配给推理的计算能力。
当前形势
智能体时代已经到来!无论 规模定律 如何继续推动基础模型性能的提升,智能体工作流程都正在使人工智能系统变得更加实用、高效和个性化。
价格大幅下降
模型制造商和云服务提供商之间的激烈竞争导致了最先进模型的使用价格大幅下降。
发生了什么
人工智能服务提供商之间掀起了一场 价格战,以吸引付费客户。一个重要的风向标是:从 2023 年 3 月到 2024 年 11 月,即使性能有所提升、输入上下文窗口扩大、模型也能够处理图像和文本,OpenAI 仍将其模型云访问的每 token 价格降低了近 90%。
幕后推手
导致价格下降的因素包括开源、计算效率更高的模型,以及对在推理过程中消耗更多 token 的智能体工作流程的追捧。OpenAI 的 GPT-4 Turbo 于 2023 年底首次亮相,设定了每百万 token 输入/输出 10.00 美元/30.00 美元的基准价格。之后,顶级的模型制造商纷纷大幅降价:谷歌和 OpenAI 在高端市场竞争,中国公司则专注于低端市场,而亚马逊则在两个市场都有布局。与此同时,一些拥有专用硬件的初创公司以远低于行业巨头的价格提供了开源模型。
事实是
对计算密集型模型的追求仍在继续,只是面临着新的挑战。9 月,OpenAI 推出 了 token 消耗量较高、价格也相对较高的模型:o1-preview (每百万 token 输入/输出 15.00 美元/60.00 美元) 和 o1-mini (3.00 美元/12.00 美元)。12 月,o1 发布了一个更精确的专业模式,但仅限于每月支付 200 美元的订阅用户。
新闻背后
人工智能界的知名人士纷纷反对那些可能限制开源模型的法规,因为开源模型在降低价格方面起到了重要作用。开发人员的反对意见帮助阻止了加州 SB 1047 法案的通过,该法案要求规模超过一定限制的模型开发者对其模型造成的意外损害承担责任,并要求设置一个“关闭开关”,使开发者能够禁用这些模型。对于任何人都可能修改和部署的开源模型而言,这是一个难以实现的要求。加州州长加文·纽瑟姆于 10 月份否决了该法案。
当前形势
价格下降是健康技术生态系统的体现。需求量大的模型很可能始终保持相对较高的价格,但市场上的定价正逐渐趋向以美分而非美元为单位,每百万 token。
生成式视频爆发
强大的视频生成模型大量涌现,标志着视频生成技术取得了重大突破。
发生了什么
各大公司纷纷推出新的或更新的文本到视频生成器。一些模型还增加了图像到视频和/或视频到视频的功能。虽然大多数模型专注于生成电影片段,但也有一些模型专门用于社交媒体视频。
幕后推手
尽管人工智能领域最近发展迅猛,但在过去一年里,视频生成器还是以惊人的速度走向成熟。几乎所有主要模型都能生成令人信服、高度精细的场景,无论是逼真还是虚幻的,同时还在不断提高图像分辨率、速度、输出长度以及用户控制输出的能力。
新闻背后
视频生成技术正在重塑电影产业。2 月,在观看 Sora 的预览后,美国电影制作人泰勒·佩里 暂停 了他计划的制片厂扩建,他认为不出几年,AI 视频可能会使传统制片厂倒闭。《斯蒂芬·科尔伯特晚间秀》的视频图形团队成员 使用 Runway 的技术,为传统的数字视频添加特效,将编辑时间从数小时缩短到数分钟。
当前形势
视频生成技术在 2024 年取得了显著进步,但仍有很大的改进空间。由于大多数模型一次只能生成少量帧,因此难以跟踪物理和几何关系,也难以在一段时间内生成一致的角色和场景。保持帧之间一致性的计算需求意味着生成的片段都很短。即使是短片段也需要大量的时间和资源才能生成:Sora 可能需要 10 到 20 分钟才能 渲染 短至 3 秒的片段。OpenAI 和 Runway 发布了更快的版本 Sora Turbo 和 Gen-3 Alpha Turbo,以应对这一挑战。
小型化趋势
多年来,最好的人工智能模型变得越来越大。但在 2024 年,一些流行的大型语言模型已经足够小,可以在智能手机上运行。
发生了什么
顶级人工智能公司不再将所有资源投入到构建大型模型上,而是推广了一系列包含小型、中型和大型模型的大型语言模型。诸如微软 Phi-3 (包含约 38 亿、70 亿和 140 亿参数的版本)、谷歌 Gemma 2 (20 亿、90 亿和 270 亿参数) 以及 Hugging Face SmolLM (1.35 亿、3.6 亿和 17 亿参数) 等模型系列都专注于小型化。
幕后推手
小型模型之所以变得更加强大,得益于知识蒸馏 (使用大型教师模型训练较小的学生模型以匹配其输出)、参数修剪 (删除影响较小的参数)、量化 (通过使用更少的位表示每个参数来减小神经网络的大小) 等技术,以及对高质量训练数据集的日益重视。除了性能、速度和价格外,在相对低功耗的硬件上运行的能力也是一个重要的竞争优势。
新闻背后
蒸馏、修剪、量化和数据收集都是长期存在的技术。但这些技术以前从未实现如此高的小型化和能力比率,这可能归因于被蒸馏、修剪或量化的更大模型的能力空前强大。
- 1989 年,Yann LeCun 和贝尔实验室的同事发表了“最优大脑损伤”,该文章表明,选择性地删除权重可以减小模型的大小,并在某些情况下提高其泛化能力。
- 量化技术可以追溯到 1990 年,当时阿拉巴马大学的 E. Fiesler 及其同事在“光学神经网络的权重离散化范式”中展示了表示神经网络参数的各种方法。随着神经网络的普及和规模的扩大,该技术在 2010 年代再次兴起,并推动了 量化感知训练 和 训练后量化 技术的完善。
- 2006 年,Rich Caruana 和康奈尔大学的同事发表了“模型压缩”,展示了如何训练单个模型来模拟多个模型的性能。Geoffrey Hinton 和谷歌大脑的同事在 2015 年发表了“提炼神经网络中的知识”,改进了 Caruana 等人的研究,并引入了蒸馏一词来描述一种更通用的模型压缩方法。
- 目前大多数小型模型都是在经过精心策划和清洗的数据集上训练的。更高质量的数据使以更少的参数获得更高的性能成为可能。这是 以数据为中心的人工智能 的一个例子,即通过提高训练数据的质量来提高模型性能。
当前形势
小型模型极大地扩展了成本、速度和部署方面的选择。随着研究人员不断找到在不牺牲性能的前提下缩小模型的方法,开发者将获得更多构建盈利应用程序、提供及时服务并将计算能力分布到互联网边缘的新途径。
收购新思路
大型人工智能公司找到了在不收购初创公司的情况下获取尖端技术和人才的创新方法。
发生了什么
在 2024 年,一些科技巨头与人工智能初创公司达成了新的合作协议,聘请了高管并获得了技术访问权限,而没有直接收购这些公司。这些协议使巨头能够快速获得顶尖人才和成熟技术,并降低了监管机构可能会阻碍此类行动的风险。而初创公司则失去了领导团队以及对关键技术发展的控制权。作为回报,他们获得了资金(至少在某些情况下是如此),回报了投资者,并得以从构建尖端模型的开支中抽身。
幕后推手
微软、亚马逊和谷歌分别利用其雄厚的财力和云基础设施,与 Inflection AI、Adept AI 和 Covariant 以及 Character.ai 达成了合作协议。(声明:吴恩达是亚马逊董事会成员。)
新闻背后
科技巨头长期以来一直依赖传统的收购方式来获取新的人才和能力,通常收购初创公司是为了其技术团队(即人才收购)和/或其产品或基础技术,而这些产品或技术都需要耗费大量资金和时间进行开发和市场测试。但传统的收购方式正面临着反垄断监管机构日益严格的审查,他们担心大公司通过收购小公司来减少市场竞争。例如,美国联邦贸易委员会曾试图阻止亚马逊收购 iRobot,最终导致两家公司在 2024 年 1 月 放弃 了这项交易。
当前形势
对于那些面临着在快速发展研究和市场中保持竞争力的科技巨头来说,向初创公司支付一笔总付金额和/或许可费以换取顶尖人才和技术似乎已经成为新的常态。但即使是这种有一定距离的合作安排,也无法让科技巨头和初创公司免受监管机构的调查。微软对 Inflection AI 的投资曾在欧洲受到 短暂审查,目前仍在接受美国监管机构的 评估。即使是微软对 OpenAI 的更传统的 投资,以及亚马逊和谷歌在 Anthropic 中的利益也面临着监管障碍。然而,到目前为止,监管机构尚未得出任何这些协议违反反垄断法的结论。
本文转载自 AI小智,作者: AI小智
