吴恩达：AI是时候从大数据转向「小数据」了-吴恩达machine learning

AI大牛吴恩达不久前刚被检测出新冠阳性，许多网友都向他表达了早日康复的祝愿。

如今，他的工作重心放在了他的Landing AI公司上。

这是一家专门面向制造业厂商数字化转型的初创公司，创立目标就是帮助制造业公司更快速、轻松地构建和部署人工智能系统。

对于传统企业来说，预训练好的模型都是基于公开数据，实际上派不上用场。

但毕竟是传统企业，上哪儿收集海量的特定数据来支撑训练?

那Landing AI是如何克服的这个困难?

最近，吴恩达在接受IEEE Spectrum的一段专访中，讨论了人工智能领域下一个十年的风向，表达了“是时候从大数据转向小数据、优质数据”的观点。

或许我们能从中找到这个问题的答案。

以下整理自采访原文，略有删减。

IEEE Spectrum：得益于越来越大的模型和数据集，深度学习在过去十年间取得了巨大的进步。一些人认为这是一个不可持续发展的轨迹。你同意吗?

吴：这确实是一个值得思考的问题。NLP领域已经有了基础模型(foundation model)，并正在继续扩大规模。计算机视觉领域也有构建基础模型的潜力，就是在视频领域由于计算带宽(算力)和处理成本的限制还有待开发。虽然扩展深度学习算法的引擎已经运行了大约15年，但它还有足够的动力。不过，它只适用于某些问题，还有一系列场景需要小数据解决方案。

注：基础模型是Percy Liang和吴在斯坦福大学的一些朋友创造的一个术语，指的是在非常大的数据集上训练的巨大模型，这种模型可以针对特定的应用进行调整，例如GPT-3。

过去十年里，面向消费者的企业由于拥有大量用户群(有时甚至高达数十亿)，因此获得了非常大的数据集得以开展深度学习。这给它们带来了不少经济价值，但我发现这种法则不适用于其他行业。

IEEE Spectrum：有意思，你以前就是在这种公司工作。

吴：确实，不过十多年前，当我提议启动谷歌大脑项目、利用谷歌的计算基础设施建设大规模网络时就引起了争议。一位非常资深的人把我拉到一边，警告我说，这会对我的职业生涯不利。我想他的意思是这个项目不能只注重扩大规模，应该把重点放在架构创新上。

我还记得当我和我的学生，发表第一篇倡导使用CUDA进行深度学习的论文时，另一位AI资深人士坐下来对我说：“CUDA编程非常复杂。作为一种编程范例，如果这么做的话工作量太大了。”

IEEE Spectrum：我想他们后来肯定都被说服了。

吴：是的。

现在当我与大家讨论以数据为中心的人工智能(Data-centric AI)运动时，也会想到15年前与大家讨论深度学习时的场景。这一年，许多人和我说“方向错了”、“两者之间似乎没有什么新东西”。

IEEE Spectrum：你是如何定义以数据为中心的人工智能，为什么你认为它是一种运动(movement)?

吴：以数据为中心的AI是为构建成功AI系统所需数据的系统准则。对于AI系统来说，你必须用代码实现一些算法，然后在你的数据集上进行训练。过去十年里，主要的应用范例就是我们下载数据集，同时专注于改进代码。这种模式给深度学习网络带来了显著的改进，但其架构基本上表达的就是一个已解决的问题。因此，对于许多实际应用来说，现在更有效的方法是固定神经网络结构，找到改进数据的方法。

而当我提出这个观点时，有从业者说：“这事儿我们已经做了20年了。” 我想说的是，现在是时候把这件少数人凭直觉做的事情变成一门系统的事。

IEEE Spectrum：你前面提到，一些公司或机构只有少量数据可供使用。以数据为中心的人工智能如何帮助他们?

吴：像很多视觉模型都是用数百万张图像构建的，我也曾经花3.5亿张图像搭建了一个人脸识别系统。但这种模型在只有50张图像的数据集上却没法运行。不过事实证明，如果你有50个非常好的数据，你也可以做出有价值的东西，比如缺陷检查系统。在许多根本不存在巨型数据集的行业，我认为重点必须从大数据转向优质数据。有50个经过深思熟虑的实例就足以向神经网络解释你想要它学会什么。

IEEE Spectrum：用50张图像训练一个模型的意思是在一个用大数据集训练好的现有模型上对其进行微调吗?还是说这是一个全新的模式，就从这个小数据集上学习?

吴：我来讲一下Landing AI是做什么的吧。在给制造商提供瑕疵检查服务时，我们一般就用带有我们自己风格的RetinaNet。它是一个预训练模型。话说过来，预训练只是难题的一小部分，更大的难题是提供一个工具让制造商能够选择正确的图像集(用于微调)，并用一致的方式对图集进行标记。面对大数据集的应用时，我们的通常反应都是如果数据有噪音也没关系，所有数据照单全收，算法会对其进行平均(average over)。但是，如果我们能够开发出用来标记出数据不一致的地方的工具，为制造商提供一种非常有针对性的方法来提高数据质量，那这将是获得高性能系统的更有效方法。

就比如你现在你有10000张图像，其中30张属于一个类别，但这30张的标签不一致。我们要做的一件事就是构建工具来吸引你注意到这个特殊的数据子集，使你能够快速重新对它们进行标记，从而提高模型性能。

IEEE Spectrum：像这样生成高质量的数据集是否有助于消除数据偏见?

吴：非常有帮助。有偏见的数据是导致最终模型产生偏见的众多因素之一。在NeurIPS会议上，Mary Gray的演讲谈到了以数据为中心的AI是这个问题的解决方案之一(并非全部)。

以数据为中心的AI给我们带来的强大能力之一是构建(engineer)数据子集。想象一下，你训练了一个机器学习模型，它的性能对于大多数数据集都还可以，但只有一个子集有偏差。要是仅仅为了提高该子集的性能就更改整个神经网络架构，那是相当困难的。

但如果你能针对这个子集构建(engineer)出合适的数据，解决方式也就更有针对性。

IEEE Spectrum：构建(engineer)数据的确切意思是?

吴：在AI领域，数据清洗很重要，但目前都是靠很机械的方式。面对一个非常大的数据集时，这个工具可以快速地将你的注意力吸引到有噪音的数据子集上，针对该子集进行集中收集。

就像我曾经发现语音识别系统的性能很差，主要是背景中有汽车噪音。知道了这一点，我就可以再收集更多带这种噪音背景的数据，而不是对所有内容都采取行动，省钱又省时。

IEEE Spectrum：使用合成数据怎么样?这也是个好的解决方式吗?

吴：合成数据也是Data-centric AI工具集中的一个重要工具。在NeurIPS研讨会上，Anima Anandkumar做了一次涉及合成数据的精彩演讲。我认为它仅仅只是一个为模型增加数据的预处理步骤。我希望能看到开发人员将生成合成数据作为迭代机器学习模型闭环的一部分。

IEEE Spectrum：你的意思是合成数据可以让你在更多不同数据集上尝试模型吗?

吴：不止如此。假设你要检测智能手机外壳上的瑕疵，包括划痕、凹痕、材料变色等。如果你的训练模型在这个检测任务上总体表现良好，但就是在识别凹痕上表现不佳，那么就可以用合成数据生成更有针对性的数据来解决问题。

IEEE Spectrum：能和我们详细说一下当一家公司找到Landing AI，比如要做视觉检验，你们会提供何种帮助?

吴：我们会要求他们将数据上传到我们的平台，用以数据为中心的人工智能方法向他们提供建议，并帮助他们标记数据。

Landing AI的重点是授权制造商自己做机器学习工作，我们的很多工作是确保软件快速且好上手。在机器学习的迭代过程中，我们会为客户提供建议，比如如何在平台上训练模型，如何以及何时改进数据标记来提高模型性能。

IEEE Spectrum：如果产品或照明条件什么的发生变化，这种模型能跟上吗?

吴：所以说授权制造业客户自己更正数据、重新训练和更新模型非常重要。

在消费互联网中，我们只需训练少数机器学习模型就能服务10亿用户。在制造业中，有10000家制造商就要搭建10000个定制模型。挑战是，你如何做到这点还不用雇佣10000名机器学习专家?

这个问题在其他行业比如医疗健康领域也存在。

摆脱这一困境的唯一办法是开发出能够让客户自己设计数据、表达专业领域知识的工具，让他们自己构建模型。这也是Landing AI在计算机视觉领域中正在做的事儿。

IEEE Spectrum：最后还有什么想说的?

吴：在过去十年中，人工智能的最大转变是向深度学习的转变。我认为在这十年中，最大的转变很可能是转向以数据为中心的人工智能。随着当今神经网络架构的成熟，我认为对于许多实际应用而言，瓶颈将是我们能否有效地获取让模型运行良好所需的数据。

而以数据为中心的人工智能运动在整个社区拥有巨大的能量和动力。我希望更多的研究人员和开发人员能够加入并致力于它。