本文第一作者为牛津大学 Harish Bhaskaran 院士课题组董博维博士。Harish Bhaskaran 院士课题组的多名科研人员 2022 年在国内联合创立光计算芯片公司光本位科技,该公司在今年7月份的世界人工智能大会上宣布所研发的 128*128 矩阵规模光计算芯片算力密度和算力精度达到商用标准,董博维博士目前已与该公司建立合作关系,从光源、相变材料、硅光互联架构等多维度共同推进光子存算在人工智能领域的商业化落地。
光计算时代或许正在加速到来。
随着人工智能等技术对算力的需求日益增长,而传统电子计算的算力供给能力与人工智能产生的算力需求之间存在失配,这促使人们寻找新的算力增长点。
光计算具有高并行度、高能效比和高速度的特点,在构建大规模矩阵-矩阵并行计算系统时具有巨大优势。近年来,光计算领域涌现出许多研究成果和进展。
近日,牛津大学 Harish Bhaskaran 院士课题组董博维博士等研究人员在《Nature》正刊上发表论文「部分相干光可增强并行光计算」。
- 论文链接:https://www.nature.com/articles/s41586-024-07590-y
- 论文标题:Partial coherence enhances parallelized photonic computing
在论文中,他们证明了,降低光学相干性能够增强光子卷积处理。他们展示了一种利用降低的时间相干性(即部分相干系统)的光子卷积处理系统,以在不显著牺牲准确度的情况下提高处理并行性,并有可能实现大规模光子张量核。
这种方法消除了对众多移相器或 MRR 的精确控制的需求,并通过使用部分相干光源减轻了对严格反馈控制和热管理的要求。
研究者在两个用于计算应用的光子平台中展示了部分相干处理的广泛适用性:首先,他们使用相变材料光子存储器,通过 3×3 光子张量核进行并行卷积处理,对十名帕金森病患者的步态进行分类,实现了 92.2% 的准确率。其次,他们使用带有嵌入式 EAM 的 9×3 硅光子张量核实现了高速 0.108 TOPS 卷积处理器,用于矢量编码和权重设置,并结合片上光电探测器对 MNIST 手写数字数据集进行分类,准确率达到 92.4%。
光计算将加速人工智能新变革
光计算大多通过芯片作为载体,在光芯片上实现。光芯片指的是在用成熟 CMOS 电芯片工艺节点(180nm、130nm、90nm)改造而成的硅基光电子工艺下流片的芯片,可以运用在通信、传感和计算上。光通信领域,各大光通信厂商都已开始全面将设备芯片化,如将光开关集成到硅光芯片上,使得面积和功耗都下降 10-100 倍;传感领域,激光雷达厂商正在积极推动将固态雷达设备用硅光芯片替代,以缩小面积和降低成本;而计算是对硅光芯片工艺要求更高、调制更复杂的领域,技术上集成了通信、传感的先进工程化经验,也面向更庞大的人工智能市场。
光计算芯片是为人工智能而生。从理论基础上,光计算芯片天然适配于做并行、大规模的线性运算,而线性运算是当今世界所有主流人工智能算法的基石。从产业结构上,人工智能天然需要用大规模、大算力、安全可控的算力集群来完成生产力的跃迁,而在产生大量算力的同时,能耗控制决定了算力集群的效率和成本。光计算芯片提供了一个超大算力、超低能耗的算力集群的发展路线。在人工智能众多新兴领域里,光计算芯片天然适配于大模型、自动驾驶、具身智能等。
大模型的训练和推理需要大量的算力,光计算芯片可以极大降低大模型所需硬件的固定成本和使用成本。在固定成本方面,光计算芯片造价成本低,且无需先进制程流片。在使用成本方面,光计算芯片能效比极高,同样算力下耗电量仅为电芯片的 1/100。可以说,光计算芯片是最适合于大模型未来发展的算力核心硬件。
自动驾驶在从 L3 至 L5 的发展过程中,算力需求会从每辆车 300TOPS 激增到 2000TOPS,在现有自动驾驶电芯片的能耗条件下,L5 所需求的算力会带来超过千瓦的耗电量,目前的电池是难以持续支撑的。光计算芯片提供了一个在大算力前提下不产生大功耗的解决方案,从而保证了新能源汽车在 L5 全自动驾驶下依然有出色的续航表现。
具身智能系统要实现与人类互动并完成多样化指令要求,决策层的多模态处理不可或缺。作为具身智能的实体之一,智能机器人的强化学习和模型训练方面需要强大的算力支持。光计算芯片具备的高速率、低延迟、高并行能力、低能耗、不易受干扰等特性,能够为具身智能系统的技术发展和产业化应用提供重要基础支撑。
大规模光计算芯片调控成本高
光计算芯片可以解决大模型、自动驾驶、具身智能的痛点,但由于光的波特性需要复杂调控,实现大规模光计算芯片一直是个难题。
大规模光计算芯片需使用多个激光光源,每个激光的波长和相位需要精准调控。同时,光信号处理硬件也需要实现对波长和相位的精准调控。这类似往水池中的不同位置同时丢下多个石块,并要求在特定的观测点能够观测到固定的水纹。所需精准调控虽然理论上可行,但调控复杂,且需要巨大的调控成本,限制了光计算芯片的大型化发展。
过去的一个世纪内,科学家们专注于实现对光源波长和相位的精准控制,提升光学相干性(图 1)。使用高相干性激光是实现新兴光应用的基本思路,包括光计算。已展示的光计算系统皆使用高品质激光作为光源。
图 1: 高光学相干性加速新兴光应用的发展。图源:董博维.
部分相干光可增强并行光计算
近日发表在《Nature》上的工作打破了使用高品质相干光这一思维惯性,反常规地探究了降低光源相干性对光计算芯片的影响,展示了低品质光源可提高光计算性能。牛津大学 Harish Bhaskaran 院士(英国皇家工程院院士)课题组董博维博士等研究人员,展示了使用单一光源即可运行大规模光计算芯片,无需复杂的光源及片上波长、相位调控。
研究人员发现,通过降低光源的品质,打破光源的相干性,可以有效消除光计算芯片中的相位噪声问题,避免复杂的系统相位调控,同时通过提升带宽利用率大幅提高系统算力。
研究人员在存内光计算芯片和电吸收调制器阵列光计算芯片两个平台内展示了这一新方法的优越性。与现有技术相比,这项新技术有望将光芯片算力提升两个数量级,且通过降低系统控制复杂度大幅降低系统能耗。
打破光源相干性,消除相位敏感性
通过降低光源相干性,使用部分相干光源,相位敏感性可被彻底消除,一个窄带部分相干光即可应对多个输入通道。这一方法解耦了波长数量与输入通道数量的关联性。
假设光计算芯片的工作带宽为 80nm,部分相干光的线宽为 0.8nm,此时输入通道数可为任意大小,且计算并行度可为固定的数值 100,从而提供比传统相干光源光计算系统高 100 倍的算力。
研究人员通过实验验证了这一假设。如图 2 所示,在光计算系统中,若在多输入通道中使用单一激光,会发生明显的由干涉引起的强度扰动,影响计算结果(图 2b)。若使用单一部分相干光,可观测到强度扰动被彻底消除,得到稳定的计算结果(图 2c)。
图 2: 部分相干光彻底消除干涉引起的光强扰动,使单一光源对应任意大小的光计算芯片成为可能。图源:Nature.
更多细节,请参考原论文。