玩转视频社交，一键剪辑视频，试试谷歌开源框架AutoFlip-51CTO.COM

我们正常情况是在看高比（16:9或4:3）下观看视频，但是随着越来越多的用户在移动设备上创建和观看视频内容，视频比例也逐渐多样化，如果用传统的方法裁剪视频长宽比，往往很容易出错，并且非常耗时。

前不久，谷歌开源了一个智能视频裁剪框架——AutoFlip，该框架基于MediaPipe框架构建，你只要输入你想要的视频长宽比，AutoFlip 会分析视频内容并提出一个优化路径和裁剪策略，最后输出你要的那段视频，如下图所示：

AutoFlip概述

AutoFlip通过使用最新支持ML的目标检测和跟踪技术智能处理视频内容，AutoFlip会检测表示场景变化的构图变化，以便分离场景进行处理。在每个镜头中，视频分析被用来识别突出的内容之前，场景被重新构造通过选择一个相机模式和路径优化的内容。

çŽ©è½¬è§†é¢‘ç¤¾äº¤ï¼Œä¸€é”®å‰ªè¾‘è§†é¢‘ï¼Œè¯•è¯•è°·æŒå¼€æºæ¡†æž¶AutoFlip

AutoFlip为智能视频重组提供了一个全自动的解决方案，利用最先进的支持ML的对象检测和跟踪技术来智能地理解视频内容。AutoFlip检测合成中表示场景变化的变化，以便隔离场景进行处理。在每个镜头中，视频分析用于通过选择针对内容优化的相机模式和路径，在重新构图场景之前识别重要内容。

镜头检测

场景或镜头是连续视频序列，没有剪切（或跳跃）。为了检测镜头的变化，AutoFlip计算每个帧的色彩值，并将其与先前的帧进行比较。如果每帧色值分布变化，则会发出镜头改变的警告，AutoFlip会缓冲视频，直到场景完成后再做重新构图，从而对整个场景进行优化。

视频内容分析

AutoFlip利用基于深度学习的对象检测模型来发现视频中有趣、突出的内容。这些内容通常包括人和动物，AutoFlip也可以识别其他元素，包括广告的文本覆盖和标识，或体育运动中的球检测。

人脸和物体检测模型被集成到AutoFlip through MediaPipe中，它在CPU上使用了TensorFlow Lite。这种结构使得AutoFlip可扩展，因此开发人员可以方便地为不同的示例和视频内容添加新的检测算法。每种对象类型都与一个权重值相关联，该值定义了其相对重要性——权重越高，该特性的影响就越大。

通过AutoFlip，无论你是想要长宽比为16:9还是2.35:1还是1：1，更或者是5:4，都可以很快完成。

目前，AutoFlip已经在Github上已经标星5K，fork共882个（Github地址：https://github.com/google/mediapipe/blob/master/mediapipe/docs/autoflip.md）