自适应计算如何解决人工智能产品化的挑战-自适应人工智能

[[389356]]

人工智能技术如今发展迅速，创新步伐不断加快。尽管软件行业已经成功地部署了人工智能，但是就人工智能的产品化来说，包括汽车、工业、智能零售在内的硬件行业仍处于起步阶段。仍然存在很大差距，并阻碍了人工智能算法概念验证(PoC)成为真正的硬件部署。这些缺陷主要是由于数据量小、“不完美”输入数据，以及不断变化的最新技术模型所致。软件开发人员和人工智能科学家如何克服这些挑战?答案在于采用适应性更强的硬件。

数据量小

诸如谷歌和Facebook这样的互联网巨头每天都定期收集和分析大量数据。他们使用这些数据来创建具有可接受性能的人工智能模型。在这种情况下，用于训练模型的硬件与用于运行模型的硬件有着很大的区别。

另一方面，在硬件行业中，大数据的可用性受到更多限制，导致成熟的人工智能模型并不成熟。因此，组织需要收集更多数据并运行在线模型，其中在部署的硬件上进行训练和推理，以不断提高准确性。

为了解决这个问题，例如经过验证的现场可编程门阵列(FPGA)和自适应片上系统(SoC)设备的自适应计算可以运行推理和训练，以不断地更新新捕获的数据。传统的人工智能训练需要在云平台或大型数据中心进行，并且需要花费数天甚至数周的时间才能完成。另一方面，实际数据主要在边缘生成。在同一边缘设备上运行人工智能推理和训练，不仅可以降低总体拥有成本(TCO)，而且可以减少延迟和安全隐患。

“不完美”输入

以X射线图像为例，采用人工智能模型概念验证(PoC)来更精确检测冠状病毒变得越来越容易，但这些概念验证(PoC)几乎总是基于经过良好处理的输入图片和信息。在现实生活中，来自医疗设备、机器人和移动汽车的摄像头和传感器输入会产生随机失真，例如更暗图像和角度不当的物体。这些输入数据首先需要经过复杂的预处理来清理和重新格式化，然后才能输入到人工智能模型中。预处理对于理解人工智能模型的输出和计算正确的决策非常重要。

确实，某些芯片可能非常擅长人工智能推理加速，但是它们几乎只是加速某一部分应用程序。以智能零售行业为例，预处理包括多流视频解码，然后采用常规的计算机视觉算法，对视频进行调整大小、变形和格式化。预处理还包括对象跟踪和数据库查找。最终客户不太在乎人工智能推理的运行速度，而是在乎是否能够满足整个应用程序管道的视频流性能和/或实时响应能力。FPGA和自适应概念验证(PoC)具有使用特定领域架构(DSA)加速这些预处理的良好记录。另外，添加人工智能推理概念验证(PoC)将使整个系统得以优化，以满足端到端的产品需求。

不断变化的“最新技术”模型

人工智能研究社区如今越来越活跃，世界各地的研究人员每天都在开发新的人工智能模型。这些模型提高了准确性，减少了计算需求，并处理新型的人工智能应用程序。这些快速的创新为现有的半导体硬件设备带来了压力，需要更新的架构来有效地支持现代算法。MLPerf等标准基准测试证明，在运行实际的人工智能工作负载时，最先进的CPU、GPU和人工智能 ASIC芯片的性能低于厂商宣称的性能的30%。这种情况一直在推动对特定领域架构(DSA)新的需求，以跟上创新的步伐。

最近一些趋势推动了对新的特定领域架构(DSA)的需求。深度卷积是一个新兴的层，需要更大的内存带宽和特殊的内存缓存才能有效。典型的人工智能芯片和GPU具有固定的L1/L2/L3缓存架构，并且内部内存带宽有限，导致效率非常低。

研究人员正在不断开发新的自定义层，而如今的芯片本身并不能支持这些新的自定义层。因此，它们需要在没有加速的情况下在服务器的CPU上运行，这常常成为性能瓶颈。

稀疏神经网络是另一种很有前途的优化方法，它通过修剪网络边缘、去除卷积中的细粒度矩阵值等方法对网络进行大量修剪，有时修剪率高达99%。然而，要在硬件中高效运行，需要专门的稀疏架构，大多数芯片根本没有用于这些操作的编码器和解码器。

二进制/三进制是极限的优化，可以将所有数学运算转换为位运算。大多数人工智能芯片和GPU仅具有8位、16位或浮点计算单元，因此通过执行极低的精度将不会获得任何性能或功效。FPGA和可适应的SoC非常完美，因为开发人员可以开发出完美的DSA，并为工作量非常大的现有设备进行重新编程。作为证明，最新的MLPerf包括Xilinx与Mipsology合作提交的文件，该文件使用ResNet-50标准基准测试实现了100%的硬件数据表性能。

没有硬件专业知识?不要担心

从历史上看，FPGA和自适应SoC的最大挑战是需要硬件专家来实施和部署DSA。好消息是，现在有一些工具(例如Vitis统一软件平台)支持C ++、Python和流行的人工智能框架(如TensorFlow和PyTorch)，从而缩小了软件和人工智能开发人员的差距。

除了在软件抽象工具方面进行更多开发之外，诸如Vitis硬件加速库之类的开源库也极大地促进了开发人员社区的采用。在最近的设计竞赛中，Xilinx公司吸引了1000多名开发人员参与，并发布了许多创新项目，从手势控制的无人机到使用二值神经网络的强化学习。重要的是，提交的大多数项目都是由以前没有FPGA经验的软件和人工智能开发人员提供的。这证明FPGA行业正在采取正确的措施，使软件和人工智能开发人员能够解决现实世界中人工智能产品化的挑战。

直到最近，对于软件开发人员和人工智能科学家来说，释放硬件适应性的潜力是无法实现的。以前需要特定的硬件专业知识，但是由于有了新的开源工具，软件开发人员现在可以使用适应性强的硬件。借助这种新的编程简便性，软件开发人员和人工智能科学家将更易于使用FPGA和自适应SoC，从而使这些设备成为下一代应用程序的首选硬件解决方案。实际上，DSA将代表人工智能推理的未来，软件开发人员和人工智能科学家将利用硬件的适应性为其下一代应用程序提供支持。