很多组织都迁移到云端,来满足他们在存储和人工智能解决方案方面的数据相关需求。为了确保敏感数据的隐私和安全,使用保密计算是至关重要的。这基本上是通过一整套硬件和软件的配合实现控制的,管理数据如何被共享和使用,以及数据所有者如何验证这些过程。
英特尔和AMD的CPU已经能够创建可信的执行环境(TEEs),在CPU层面为保密计算提供支持。TEEs确保数据在静止状态、传输过程中,甚至在使用过程中都保持加密。它还提供远程验证,以验证硬件的配置,并只对所需的算法授予数据访问权。微软在Azure上的保密计算解决方案也利用同样的原则。
然而,现有的解决方案与内置在 CPU 中的 TEE 联系在一起,所以微软现在希望将这一边界也扩展到 GPU,确保数据可以安全地转移到更强大的硬件上以满足计算需求。当涉及到组织的人工智能工作负载时,这就更加重要了,微软正在与英伟达在这方面进行合作。
微软表示想要实现这个目标并不简单。因为它需要保护 GPU 免受各种攻击,同时确保 Azure 主机对管理活动有足够的控制。即使在硬件层面,该实施方案也不应对热能和性能产生负面影响,而且理想情况下,也不需要对现有的 GPU 微架构进行改变。该公司的愿景包括保密 GPU 的以下功能:
- 一种新的模式,GPU上的所有敏感状态,包括GPU内存,都与主机隔离。
- 在GPU芯片上有一个硬件信任根,可以生成可验证的证明,捕获GPU的所有安全敏感状态,包括所有固件和微代码
- 对GPU驱动程序进行扩展,以验证GPU的证明,建立与GPU的安全通信通道,并透明地加密CPU和GPU之间的所有通信
- 硬件支持通过NVLink透明地加密所有GPU-GPU通信
- 在客户操作系统和管理程序中支持将GPU安全地连接到CPU TEE,即使CPU TEE的内容是加密的。
微软表示,它已经在Azure上的NVIDIA A100 Tensor Core GPU中建立了保密计算能力。这已经通过一个名为安培保护内存(APM)的新功能完成。实施细节在本质上是高度技术性的,你可以在这里查看。
这个解决方案现在可以通过Azure Confidential GPU VMs进行私人预览。目前,企业可以使用最多4个NVIDIA A100 Tensor Core GPU的虚拟机来处理他们的Azure工作负载。微软的下一步包括确保更广泛地采用这些做法,并与NVIDIA合作,在其Hopper架构上进一步加强现有的实施。