IBM 与 EPFL 的研究人员合作,创造了一种用于处理大型数据集以训练机器学习算法的新方法。这种被称为 Duality-gap based Heterogeneous Learning(DuHL)的新算法能够每 60 秒推送 30GB 的数据,比以前的方法提高了 10 倍。
通常,需要 TB 的内存才能模拟某些机器学习模型。所需的硬件相当昂贵,甚至一旦建立操作,计算能力仍然是研究人员的一个问题。运行一个测试几天甚至几个星期,使得研究人员难以按小时租用硬件进行机器学习。
利用 GPU 进行并行计算已经有好多年了,但目前的显卡还没有达到 IBM 研究所需的太字节内存需求。目前针对 GPU,有不同节点分割计算需求的方法,但不是所有的任务都适合分配。对此,IBM 现在允许其机器学习工具随着算法的进展而改变对单个数据片段的调用。简而言之,过去的成就将贯穿整个验证阶段,以便为系统提供反馈,使系统比以前更快地指向正确的方向。
在初步测试期间,IBM 使用了配有 8GB GDDR5 内存的 NVIDIA Quadro M4000 显卡。在这种价格适中的专业图形卡上 IBM 证明,与标准的顺序操作方法相比,使用 DuHL 系统可以将支持向量机训练速度提高 10 倍以上。