本文转自雷锋网,如需转载请至雷锋网官网申请授权。
进入 2020 年,在疫情黑天鹅以及新基建以极快的速度成为共识的大背景下,AI 真正迎来了属于自己的高光时刻。
今年全球人工智能领域人才的分布是什么样子?AI 领域有哪些研究和突破?AI 产业有哪些新风向?未来又有哪些新趋势?
剑桥大学这份年度 AI 全景报告或许能告诉你答案。
今年是该年度报告的第三期,由 Nathan Benaich 与 Ian Hogarth 代表剑桥大学总结了过去一年的 AI 趋势。
和往年一样,该报告援引的数据来自知名科技公司和研究小组。新版 AI 全景报告全方位总结过去一年来 AI 领域的研究成果与突破、人才形势、产业动态等,并作出未来预测。
报告显示,在美国工作的顶尖 AI 人才中,27% 有中国教育背景,但他们在毕业后有 54% 会去美国攻读研究生博士,这其中又有 90% 选择留美工作。
如果您想获得本报告的全文 pdf,请在雷锋网(公众号:雷锋网)微信公众号回复关键词“ 1010报告”提取。
文档来源:剑桥大学
一、人工智能研究进展:只有 15% 的论文会公开代码,PyTorch 超越了 TensorFlow
1、开放性不足
AI 研究的开放性并没有我们想象的那么高,只有 15% 的论文会开源他们的代码。
研究论文代码的实现对于 AI 的可问责性、可再现性和推动进展至关重要。
自 2016 年中期以来,该领域在这一指标上几乎没有改善。传统上,学术团体比行业团体更有可能发布他们的代码。没有公开所有代码的著名组织有 OpenAI 和 DeepMind。
对于科技公司来说,它们的代码通常与无法发布的专有伸缩基础设施交织在一起。这表明人工智能人才和计算机的集中化是一个巨大的问题。
2、PyTorch 超越了 TensorFlow
在研究论文中,Facebook 的 Py Torch 快速超越了谷歌的 Tensor Flow。
20-35% 的会议论文提到了他们使用的框架,75% 引用了 PyTorch 而不是 TensorFlow。2018 年,有 161 位作者发表的 TensorFlow 论文多于 PyTorch 论文,其中 55% 的人改用了 PyTorch。15% 情况正好相反。
同时,作者观察到 Tensor Flow、Caffe 和 Caffe2 仍然是生产 AI 的主力。
此外,在 GitHub 上, PyTorch 也比 TensorFlow 更受欢迎。
据统计现在约有 47% 的实现是基于 PyTorch 的,而 TensorFlow 的大约为 18%。PyTorch 提供更大的灵活性和动态计算图,使实验变得更加容易。JAX 是个对数学更友好的Google出品框架,通常在卷积模型和 transformer 之外的工作中受到青睐。
3、NLP 模型趋势
另一方面,大尺寸模型正在推动着 NLP 领域的技术进步,OpenAI 的 GPT-3 等新研究已经把深度学习模型的参数数量推到了千亿。
根据目前的云服务算力价格,训练每 1000 参数的模型平均需要 1 美元,拥有 1750 亿参数的 GPT-3 可能需要花费百万美元级别的费用,有专家认为这一数字超过了 1000 万美元。高昂的训练费用,让研究人员们在探索新方向时遭遇了挑战。
在 AI 模型训练需求越来越多算力的同时,传统计算机架构却在逐渐接近摩尔定律的终点。MIT 等大学的研究称,科学家如果希望将 ImageNet 数据集图像分类任务的错误率从 11.5% 降到 1%,可能需要数百亿美元的投入。
不过,人们也在研究提高模型效率的方法,OpenAI 的统计表明:自 2012 年起,训练深度学习神经网络进行 ImageNet 图像分类要想达到特定的水平,其所需的算力每 16 个月减半。
毋庸置疑的是,GPT-3、BERT 等模型已经让 NLP 领域的研究进入了新的阶段。现在甚至出现了自动翻译编程语言的无监督机器翻译工具。在 GitHub 上把 C++ 函数翻译至 Java 准确率达到 90%。
4、 生物学的“ AI 时刻”:仅在 2020 年,就有超过 2.1 万篇论文
生物研究正在经历「AI时刻」:仅 2020 年,就有超过 21,000 篇相关论文发表。自 2017 年以来,涉及生物领域人工智能方法(如深度学习、NLP、计算机视觉、RL)的出版物同比增长了 50%。自 2019 年以来发表的论文占 2000 年以来所有论文的 25%。
不过,当前的大多数机器学习应用是通过统计来实现功能的,其忽略了人类学习知识的重要方法——因果推理。在为患者寻找诊疗方案等任务中,因果推理是更好的方式。Judea Pearl、Yoshua Bengio 等人工智能先驱者都认为,因果推理是使得机器学习系统更好地泛化,更强大稳健,并为决策作出更大贡献的新方向。
5、联邦学习
2018 年至 2019 年,提到联邦学习的论文数量增长了近 5 倍。2020 年上半年发表的论文比 2019 年全年都多。
二、AI 人才:人才外流,27 % 有中国教育背景
人工智能领域研究者的分布情况近几年呈现出几种新的趋势。
1、人才外流
在 2004 年至 2018 年间,谷歌、DeepMind、亚马逊和微软从美国大学聘请了 52 名终身教授和终身教授。卡内基梅隆大学、华盛顿大学和伯克利大学在同一时期失去了 38 位教授。值得注意的是,2004 年没有一位人工智能教授离开,而仅 2018 年就有 41 位人工智能教授离开。
当然,老教授的离开可能会为年轻的学术人才腾出晋升的阶梯。而与此同时,也有一些学者并不买账。
人工智能教授的流失与全美 69 所大学的毕业生创业能力下降有关。
一般来说,人工智能终身教授离职 4-6年后,毕业生创办人工智能公司的可能性降低了 4% ;但这种并不适用于教授在学生毕业前 1-3 年就离开的情况,这表明教授和学生之间的互动很重要;但人工智能教授的离职与同一所大学的毕业生成立非 AI 公司之间也没有显著的相关性。
2、中国学者的重要性凸显
在 2019 年 Neur IPS 接受论文的作者中,有 29% 在中国获得本科学位。但在离开中国的大学后,54%的毕业生前往美国在 NeurIPS 发表论文。
在人工智能领域里,美国仍然是国际研究的中心,有 90% 在美国毕业的留学博士都会留美继续工作。
而非美国籍的 AI 博士毕业生毕业之后很有可能到大型科技公司就职,而美国籍的博士毕业生更有可能去初创公司就职或加入学术界的研究行列。
与此同时,许多 AI 领域的美国博士毕业生毕业之后会前往英国和中国就职。去英国的毕业生中,55%选择在私营部门工作;去中国的人当中 40% 选择去私营部门。
还有数据表明,尽管美国的 AI 技术领先,但大多数在美国工作的顶级人工智能研究人员都不是在美国接受本科教育的,中国(27%)、欧洲(11%)和印度(11%)是美国 AI 人才的最大几个输送国。
3、美国依赖人工智能人才
考虑到美国人工智能产业对移民的依赖程度,特朗普宣布暂停 H1-B 签证引起了强烈反弹。 八起联邦诉讼和数百所大学反对 。
4、美国继续主导 NeurIPS 2019 年论文
以 NeurIPS 2019 为例,谷歌、斯坦福、卡内基梅隆大学、MIT 和微软发表的论文数量位居前五。
5、AI 人才供不应求
AI 领域的人才需求不断增长。许多一流大学也在扩大 AI 专业的招生规模。以斯坦福为例,最近几年斯坦福 AI 领域的学生是 1999-2004 年的十倍之多,与 2012-2014 年相比 AI 领域学生数量也是翻了一倍。
尽管如此,来自 Indeed 的数据显示,招聘职位的数量仍约为求职者数量的三倍。
但不可避免的是,2020 年人工智能领域的人才市场受到了新冠疫情的严重影响。根据领英发布的数据,2020 年机器学习领域职位原本强劲的增长趋势在 2 月受到打击,开始下滑。
三、AI 产业:医疗、自动驾驶正在全面利用 AI
1、医疗
疫情期间,很多科技公司将 AI 医疗影像识别技术投入使用。
比如,深度学习将超分辨率显微镜成像从采集到分析进行了改进,使用监督学习和计算机视觉将人体显微镜下的数小时时间缩短为几分钟。超分辨率显微镜通常需要主题专家来评估样本,ONI 的系统自动化这些视觉检查任务和解锁超分辨率非专业用户。
而且,美国医疗保险和医疗补助服务中心也提出了基于深度学习的医疗成像产品费用标准。未来,优先使用 AI 技术将在医疗领域越来越常见。例如,利用人工智能设计药物已经在日本进行了临床试验,而一大批创业公司也得到了大量资金用于实现平台战略发展。
2、自动驾驶
自 2018 年以来,在加利福尼亚州拥有自动驾驶汽车测试许可的 66 家公司中,只有 3 家被允许在没有安全驾驶员的情况下进行测试,其分别为 Waymo(谷歌)、Nuro 和 AutoX。
即使在政策最为开放的加州,迄今为止自动驾驶汽车的行驶里程相比人类也是微不足道——自动驾驶汽车公司在 2019 年的自动驾驶里程比 2018 年增加了 42%。但这仅相当于 2019 年有驾照加州驾驶员行驶里程的 0.000737%。
自动驾驶领域的公司,必须要有强大的资金支持。13 亿美元被亚马逊收购的 Zoox,其自 2015 年以来收获的融资已超过了 9.55 亿美元,Zoox 最新的估值约为 32 亿美元。交易文件显示,Zoox 在 2020 年初每个月要烧掉 3000 万美元。
国内的出行公司滴滴最近也把自动驾驶业务剥离,并从软银远景基金等机构筹集了 5 亿美元。今年 7 月,滴滴在上海推出了自动驾驶汽车服务。
目前,自动驾驶系统中的大多数机器学习算法只专注于车辆周围的事物,并基于工程量巨大的手写规则。研究人员正在开发类似于 AlphaGo,学习大量人类驾驶经验进行训练的新算法。最近,Waymo、Uber 和 Lyft 都展示了模仿学习和逆强化学习的新技术。
自动驾驶等领域的发展也需求大量算力,Graphcore、英伟达等公司今年推出的新一代芯片成为了人们的希望。
另外,今年 AI 在保护人类免受电子邮件钓鱼攻击方面、计算机视觉检测篡改身份文件、反洗钱和恐怖分子融资和经济犯罪等方面也做出了不小的贡献。
四、政策变化
1、伦理道德风险
NeurIPS 和 ICLR 都提出了新的伦理规范,但并未强制代码和数据共享。以人工智能领域最顶级会议 NeurIPS 为例:
NeurIPS 将创建一个专门的子团队,由机器学习和伦理学交叉领域的专家组成。
NeurIPS 现在要求论文作者提交关于「该工作可能产生的更广泛的影响,包括道德方面以及未来的社会影响」。
鉴于 Facebook 和谷歌等公司在 NeurIPS 中的影响力日益增强,因此「作者必须提供明确披露资金来源以及竞争利益点」。
NeurIPS「强烈鼓励」共享数据和模型,但没有强制性规定。
在这方面,机器学习领域落后于生命科学领域,例如在 Nature 期刊上发表论文的条件之一是,作者必须「及时向读者提供材料、数据、代码和相关协议」。
华为在智能手机领域的主导性增强,并在机器学习技术上大量投资。
2、人脸识别面临争议
目前世界上 50% 的人允许使用面部识别。 只有 3 个国家(比利时、卢森堡, 摩洛哥)部分禁止只允许在特定情况下使用这种技术。
那些头部科技公司,对于人脸识别技术的使用也更加谨慎:
微软删除了其 1000 万张人脸的数据库——这是目前可用的最大数据库。数据库中的人脸是从网络上抓取的,并未取得当事人的许可。
亚马逊宣布一年内暂停警方使用其面部识别工具 Rekognition,以便「国会有足够时间制定适当的规定」。
IBM 宣布放弃其人脸识别产品及技术。
纽约大都会运输署 (MTA) 要求苹果允许乘客戴口罩时启用 FaceID,以防止新冠病毒扩散。
3、军用 AI 系统被重视
美国继续在实施军事人工智能系统方面进行重大投资。随着机器学习技术的不断工业化,军方对其进行了越来越多的探索。
美国总务管理局和美国国防部联合人工智能中心授予博思艾伦咨询公司一份为期 5 年、总共 8 亿多美元的订单,内容简介中包括「数据标签、数据管理、人工智能产品开发」等关键词。
在国防层面,还有更多与此相关的 AI 公司正在获得丰厚的政府合同和风险投资。戴尔旗下 Pivotal 软件公司获得了美国国防部 1.21 亿美元的合同,还有一些从事无人机、高分辨率卫星地图、信息管理等业务的公司获得了大量风险投资,例如 Anduril、Rebellion、Skydio。
从 AlphaGo、AlphaStar 到 AlphaDogfight,借助深度强化学习技术,人工智能正在更多的领域击败顶尖人类选手。这也充分说明,在游戏对战环境中所训练的取胜技术,可以迅速迁移到军事环境中。
4、华为智能手机业务主导性增强
华为在智能手机领域的领导力越来越强,并且正大力投资机器学习技术。这是 9 年来第一次,除苹果和三星之外,还有其他公司在引领市场。然而,根据美国的制裁,到 2020 年 9 月中旬,华为的芯片供应将告罄。
使用美国芯片制造设备的外国公司将被要求在向华为供应某些芯片之前获得美国的许可证。华为消费者部门总裁宣称:“没有芯片,就没有供应”。
5、 台湾台积电在研发支出和半导体制造方面仍占主导地位
台积电的研发支出与中芯国际的收入相当。台积电是唯一一家采用 5nm 制程(N5)的制造商,目前正致力于 3nm 制程(N3),其效率比 N7 高 2 倍,性能比 N7 高 33%。
6、中国正在努力减少对美国半导体的依赖
中国政府设立了一项 290 亿美元的国家支持基金,以减少对美国半导体技术的依赖。并招聘了100多名台积电工程师,以缩小与中国在半导体能力方面的差距。
新的国家基金得到了财政部、中国国家开发银行、地方政府和国有企业的支持。在此之前,2014 年推出了首只由政府主导的半自动化投资基金。
7、 美国参议院提出 CHIPS 法案
虽然世界上一半以上的先进芯片是在美国设计的,但只有 12% 是在美国制造的。
美国 CHIPS 法案将指定 220 亿美元补贴美国芯片制造业,这些项目包括100 亿美元的联邦匹配基金、国防部相关基金以及120 亿美元的相关研发基金。
除此之外,美国要求其盟友也为其生产芯片。
8、人工智能民族主义:AI 预算将持续扩大
人工智能继续被强调为科学和技术方面最重要的投资领域。
国防部联合人工智能中心继续扩大发射预算,从 2019 年的 9300 万美元扩大到 2020 年的 2.38 亿美元。
9、各国都在宣布自己的人工智能战略
五、关于未来的预测
报告最后给出了未来十二个月的八大预测:
1、搭建更大语言模型的竞赛仍将持续,我们将会见证第一个 10 万亿参数级模型的诞生。
2、基于注意力的神经网络将从 NLP 领域迁移到 CV 领域,实现新的 SOTA。
3、随着母公司战略的调整,一家大型企业的 AI lab 即将关闭。
4、作为对美国国防部活动和美国军事 AI 初创公司融资的回应,一部分中国和欧洲的国防 AI 企业将在未来的 12 个月内融资超过 1 亿美元。
5、一家头部 AI 药物发现初创公司(比如 Recursion、Exscientia)要么进入 IPO,要么以超过 10 亿美元的价格被收购。
6、DeepMind 将在结构生物学和药物发现方面取得重大突破。
7、Facebook 将凭借 3D 计算机视觉技术在 AR 和 VR 上取得重大突破。
8、NVIDIA 最终不会完成对 Arm 的收购。
最后的最后,你怎么看待 2020 年 AI 的发展?