在人工智能领域,由斯坦福大学发起的人工智能指数(AI Index)是一个追踪 AI 动态和进展的非营利性项目,旨在全面研究 AI 行业状况,旨在促进基于数据的 AI 广泛交流和有效对话。
刚刚,AI Index 正式发布了 2022 年度报告。
报告下载地址:https://aiindex.stanford.edu/report/
2022 年度发布的报告要点可总结为以下八点:
1. AI 领域私人投资猛增,投资集中度加剧。
2021 年 AI 领域的私人投资总额约为 935 亿美元,是 2020 年私人投资总额的两倍多,但新投资的 AI 公司数量却在继续下降,从 2019 年的 1051 家和 2020 年的 762 家公司减少到 2021 年的 746 家。2020 年有 4 轮 5 亿美元以上的融资,2021 年有 15 个。
2. 美国和中国主导了 AI 跨国合作。
尽管地缘政治紧张局势加剧,但从 2010 年至 2021 年,美中两国在 AI 出版物方面的跨国合作数量最多,自 2010 年以来增加了五倍。美中之间合作产生的出版物数量是英中之间合作数量(第二高)的 2.7 倍。
3. 语言模型比以往任何时候都更有能力,但也更有偏见。
大型语言模型在技术基准上创造了新的记录,但新数据表明,更大的模型也更易于从训练数据中反映出偏见。与 2018 年被认为是 SOTA 的 1.17 亿参数模型相比,2021 年开发的 2800 亿参数模型产生的「毒性」增加了 29%。随着时间的推移,这些系统的能力显著增强,既有性能增加也暴露出潜在愈加严重的偏见。
4. AI 伦理的兴起无处不在。
自 2014 年以来,关于 AI 公平性和透明度的研究呈爆炸式增长,在伦理相关会议上的相关出版物增加了五倍。算法公平和偏见已经从主要的学术追求转变为具有广泛影响的主流研究课题。近年来,具有行业关系的研究人员在以伦理为中心的会议上发表的论文同比增加了 71%。
5. AI 变得更负担得起,性能更高。
自 2018 年以来,训练图像分类系统的成本降低了 63.6%,而训练时间提升了 94.4%。在其他 MLPerf 任务类别(如推荐、对象检测和语言处理)中出现了训练成本更低但训练时间更快的趋势,有利于 AI 技术更广泛的商业应用。
6. 数据,数据,还是数据。
跨技术基准测试的顶级结果越来越依赖于使用额外训练数据来实现新的 SOTA 结果。截止 2021 年,本报告中 10 个基准测试中有 9 个 SOTA AI 系统接受了额外数据的训练。这种趋势隐式地有利于私人机构参与者访问大量数据集。
7. 关于 AI 的全球性立法比以往任何时候都多。
AI Index 对 25 个国家的 AI 立法记录的分析显示,被通过成为法令的包含 AI 的法案数量从 2016 年的 1 项增长到 2021 年的 18 项。2021 年,西班牙、英国和美国通过与 AI 相关的法案数量最多,平均通过了三项法案。
8. 机械臂越来越便宜
AI Index 调查显示,在过去六年中,机械臂手臂的价格中位数下降了 4 倍,从 2016 年的每只手臂 50000 美元降至 2021 年的 12845 美元。机器人研究变得更易于获得和负担得起。
从结构上来看,2022 AI Index 报告共分为五章,具体如下:
- 第一章:研究与开发(Research and Development)
- 第二章:技术性能(Technical Performance)
- 第三章:技术 AI 伦理(Technical AI Ethics)
- 第四章:经济与教育(Economy and Education)
- 第五章:AI 政策与管理(AI Policy and Governance)
- 附录
以下是对报告前两章内容的简要解读。
研究与开发
研发是推动人工智能快速发展不可或缺的力量。每年,广泛的学术、行业、政府和民间社会专家和组织通过大量论文、期刊文章和其他与人工智能相关的出版物、人工智能会议或图像识别等特定子主题的会议,为人工智能研发做出贡献。
本报告第一章利用多个数据集分析 2021 年人工智能研发领域的主要趋势。本章首先着眼于人工智能出版物,包括会议论文、期刊文章、专利和知识库。然后,报告分析了 AI 会议出席情况。最后,报告检查了研发过程中使用的 AI 开源软件库。
AI 出版物总体概览
图 1.1.1 为全球 AI 出版物数量。从 2010 年到 2021 年,AI 出版物的总数量翻了一番,从 2010 年的 162444 篇增加到 2021 年的 334497 篇。
按专业划分:自 2015 年以来,模式识别和机器学习领域的出版物增长了一倍多。而受深度学习影响较大的其他领域,如计算机视觉、数据挖掘和自然语言处理方面,则增幅较小。
跨国合作:从 2010 年到 2021 年,中美在 AI 出版物方面的跨国合作数量最多,自 2010 年以来增加了五倍。两国之间合作产生的出版物数量是中英合作产生出版物数量的 2.7 倍(排名第二)。
AI 期刊出版物
在从 2010 年到 2015 年仅略有增长之后,AI 期刊出版物的数量自 2015 年以来增长了近 2.5 倍(图 1.1.7)。
图 1.1.10 按三大 AI 强国划分了过去 12 年 AI 期刊出版物的份额。中国始终保持领先地位,2021 年为 31.0%,其次是欧盟和英国为 19.1%,美国为 13.7%。
引用次数:在 AI 期刊论文的引用次数上,中国的份额逐渐增加,而欧盟以及英国和美国的份额则在下降。这三个地理区域的总引用量占全球总引用量的 66% 以上。
AI 会议出版物
AI 会议出版物数量在 2019 年达到峰值,比 2021 年的峰值下降了约 19.4%(图 1.1.12)。然而,尽管总数有所下降,但自 2010 年以来,人工智能会议出版物在全球会议出版物总数中的份额增加了超过 5 个百分点(图 1.1.13)。
按地域划分:2021 年,中国以 27.6% 的比例在全球 AI 会议出版物中所占份额最大,比 2020 年的领先优势更大,而欧盟和英国以 19.0% 紧随其后,美国以 19.0% 位居第三 16.9%(图 1.1.15)。
引用次数:尽管中国在 2021 年发表了最多的 AI 会议出版物,图 1.1.16 显示,美国在 AI 会议引用次数方面领先于其他大国,2021 年为 29.5%,其次是欧盟 + 英国 (23.3%) 和中国(15.3%)。
AI 专利
图 1.1.22 为 2010 年到 2021 年 AI 专利申请数量。2021 年 AI 专利申请量是 2015 年的 30 倍以上,复合年增长率为 76.9%。
按地理区域:中国现在申请了全球一半以上的人工智能专利,并获得了约 6% 的授权,与欧盟和英国大致相同。美国在北美申请了几乎所有专利。图 1.1.24c 显示,与不断增长的人工智能专利申请和授权数量相比,中国的专利申请数量(2021 年为 87,343 件)远高于授权数量(2021 年为 1,407 件)。
AI 开源软件库
图 1.3.1 和 1.3.2 反映了 2015 年至 2021 年 GitHub 开源 AI 软件库的用户数量。TensorFlow 仍然是 2021 年迄今为止最受欢迎的,GitHub 累计 star 量约为 161,000 ,比 2020 年略有增加。TensorFlow 在 2021 年,它的受欢迎程度大约是排名第二的 GitHub 开源 AI 软件库 OpenCV 的三倍,紧随其后的是 Keras、PyTorch 和 Scikit-learn。图 1.3.2 显示了 GitHub star 量少于 40,000 的库的受欢迎程度—— FaceSwap 位居榜首,其次是 100-Days-Of-ML-Code、AiLearning 和 BVLC/caffe。
技术性能
今年,在技术性能一章对人工智能各个子领域的技术进步进行了比以往更多的分析,包括计算机视觉、语言、语音、推荐、强化学习、硬件和机器人技术的趋势。
计算机视觉:图像
截至 2021 年底,顶级图像分类系统 Top-1 准确率上平均每 10 次分类出现 1 个错误,而在 2012 年底,平均每 10 次分类出现 4 个错误。
图 2.1.5 记录了生成模型在 STL-10 数据集上取得的性能。由首尔大学等机构的研究人员开发的最先进的 STL-10 模型的 FID 得分为 7.7,明显优于 2020 年 SOTA 结果。
人脸检测:从 FRVT face-mask 测试中可以得出三个重要趋势:(1)面部识别系统在 masked 上的表现仍然相对较好;(2) masked 的表现比 non-masked 差;(3) 2019 年以来差距缩小。尽管人脸识别技术已经存在了几十年,但最近几年的技术进步是显著的。当今一些表现最好的面部识别算法在具有挑战性的数据集上的成功率接近 100%。
计算机视觉:视频
MTV 是 Google Research、密歇根州立大学和布朗大学的合作项目,于 2022 年 1 月发布,在 600 系列上实现了 89.6% 的 Top-1 准确率,在 400 系列上实现了 89.1% 的准确率,在 700 系列上实现了 82.20% 的准确率 (图 2.2.2)。
对 2022 AI Index 更多细节内容感兴趣的读者,请阅读原报告。