自动驾驶是边缘计算的重要应用,自动驾驶需要100-1000TOPS边缘AI算力,其具有高性能、低功耗特点的边缘AI(Edge AI)成了行业壁垒。
AI计算需要域来优化算法和数据流架构,摩尔定律已逼近极限,若没有正确的算法和架构,仅基于处理技术的驱动性能将无法实现预期的结果。
整体边缘计算市场规模高速增长。图片来源:IDC
未来计算平台
第一类:冯·诺依曼人工智能架构
- 哈佛大学推出了参数化深度学习基准套件ParaDNN,这是一种系统化、科学化的跨平台基准测试工具,不仅可以比较运行各种不同深度学习模型的各类平台的性能,还可以支持对跨模型属性交互作用的深入分析、硬件设计和软件支持。
- TPU(Tensor Processing Unit, 即TPU张量处理单元)是谷歌打造的处理器,专为机器学习量身定做的,执行每个操作所需的晶体管数量更少,效率更高。TPU对CNN和DNN的大批量数据进行了高度优化,具有最高的训练吞吐量。
- GPU表现出与TPU类似的性能,但对于不规则计算(如小批量和非MatMul计算)具有更好的灵活性和可编程性。
- CPU在针对RNN方面实现了最高的FLOPS利用率,并且因其内存容量大而支持最大模型。
第二类:非 冯·诺依曼人工智能架构
- 内存计算(CIM):基于SRAM、NAND闪存以及新兴内存(如ReRAM、CeRAM、MRAM)的CIM阵列被视为神经网络计算的可重新配置、可重新编程加速器。CIM优点:高性能、高密度、低功耗和低延迟。当前的挑战:读出位线模拟信号传感和专用RAM处理技术的ADC。
- 神经形态计算:神经形态计算将AI扩展到与人类认知相对应的领域,如解释和自主适应。下一代人工智能必须能够处理新的情况和抽象,以自动化普通人类活动。
- 量子计算:在量子计算中,最小的数据单位是基于磁场自旋的量子位。基于量子纠缠,量子计算允许2个以上的状态,纠缠速度非常快(比如:Google Sycamore、Quantum Supremay、53个Qbits、速度快1.5万亿倍、在200秒内完成一项需要经典计算机10000年才能完成的任务)。当前的挑战:嘈杂中型量子(NISQ)计算机中的错误率和消相干。
- 量子神经形态计算:量子神经形态计算在类脑量子硬件中物理实现神经网络,以加快计算速度。
边缘AI与垂直应用
- 边缘人工智能将主导未来的计算,人工智能是一种能实现未来水平和垂直应用的技术。
-
水平人工智能应用解决了许多不同行业的广泛问题(例如计算机视觉和语音识别);垂直人工智能应用是针对特定领域进行高度优化的特定行业(例如高清地图、自动驾驶定位与导航)。
-
凭借深厚的领域知识,高效的AI模型和算法可将计算速度提高10-100000倍。这是未来人工智能中最核心、最重要的自动驾驶技术。
- 所有垂直应用解决方案均需要用于多任务的多级AI模型。
AI模型与算法
- DNN是人工智能的基础,如今的DNN使用一种称为反向传播的学习形式。如今的DNN训练速度慢,训练后是静态的,有时在实际应用中不能灵活应变。
- 迁移学习是一种将先前开发的DNN“回收”作为DNN学习第二项任务起点的方法,有了迁移学习,DNN可用较少的数据训练DNN模型。
- 持续(终身)学习是指在保留先前学习经验的同时,通过适应新知识不断学习的能力。例如,与环境交互的自动驾驶需从自己的经验中学习,且必须能在长时间内逐步获取、微调和迁移知识。
- 强化持续学习(RCL)通过精心设计的强化学习策略,为每个新任务寻找最佳的神经结构。RCL方法不仅在防止灾难性遗忘方面具有良好的性能,而且能很好地适应新的任务。
自动驾驶系统 (ADS) – 功能框图。图片来源:ARM
自主驾驶技术需要突破:
- 边缘精确定位和导航–轻量化、基于指纹的精确定位和导航。
- 关键实时响应–20-30毫秒,类似人脑
- 消除盲区–V2X、V2I、DSRC、5G
- 可升级–低功耗和低成本
图片来源:ARM
自动驾驶需要在高清地图、定位和环境感知中处理大量数据,边缘处理的所有数据都需要在关键的几毫秒内完成。在感知、定位、导航、强化交互(驾驶策略)方面智能精确地减少数据,将使自动驾驶系统缩短延迟,并快速响应不断变化的交通状况。
强大、高性能的边缘人工智能(Edge AI)是自动驾驶汽车领域主要壁垒之一。5G连接支持可靠的MIMO连接、低延迟、高带宽。在5G的加持下,强大的边缘AI,加之高清地图、定位和感知方面的创新,将使真正的自动驾驶成为现实。