随着技术的发展,研究人员继续寻找新的方法来利用人工智能和机器学习能力。本周早些时候,Google科学家宣布创建了Transframer,这是一个新的框架,它能根据单一的图像输入来生成短视频。这项新技术有朝一日可以增强传统的渲染解决方案并使开发者能够基于机器学习能力创建虚拟环境。
这个新框架的名称(及在某些方面的概念)是对另一个基于人工智能的模型Transformer的点赞。Transformer最初于2017年推出,是一个新颖的神经网络架构,它有能力通过建模和比较句子中的其他词来生成文本。此后,该模型被纳入了标准的深度学习框架如TensorFlow和PyTorch。
据悉,Transframer使用具有类似属性的背景图像,结合查询注释来创建短视频。尽管在原始图像输入中没有提供任何几何数据,但产生的视频在目标图像周围移动并将准确的视角可视化。
这项新技术使用Google的DeepMind人工智能平台进行了演示,其功能是分析单一的照片背景图像以此来获得关键的图像数据并生成额外的图像。在这一分析过程中,系统确定了图片的框架,这反过来又帮助系统预测图片的周围环境。
然后,语境图像被用来进一步预测图片从不同角度会出现的情况。预测根据数据、注释及语境框架中的任何其他信息对额外图像框架的概率进行建模。
该框架通过提供基于非常有限的数据集生成合理准确的视频的能力,这标志着视频技术的巨大进步。Transframer任务在其他跟视频有关的任务和基准上也显示出极有前景的结果,如语义分割、图像分类和光流预测。
对基于视频的行业如游戏开发可能具有潜在的巨大影响。目前的游戏开发环境依赖于核心渲染技术,如着色、纹理映射、景深和光线追踪。像Transframer这样的技术有可能通过使用人工智能和机器学习来构建他们的环境并与此同时来减少创建环境所需的时间、资源和精力以为开发者提供一个全新的开发路径。