AI 江湖风云变幻计算机视觉路在何方-江湖风云变幻莫测

作者丨张洁

【51CTO.com原创稿件】计算机视觉 (Computer Vision, CV) 在人工智能领域里相当于人类的眼睛，致力于让计算机能够像人类一样，识别、理解和处理图像以及视频中的信息。得益于深度学习的兴起和发展，目前 CV 领域进展迅速，此项技术已经广泛应用到安防、金融、自动驾驶、医疗等行业，也逐渐成为人工智能领域里应用最广的技术之一。当越来越多的应用场景被挖掘出来时，也意味着计算机视觉的发展前景将无比广阔。

前沿：进展与挑战

2012 年之后，深度学习兴起，颠覆了几乎所有的计算机视觉任务。其特点是将传统的特征工程和模型学习合为一体，即能够在学习的过程中进行特征设计。在过去的 2021 年里，传统科技巨头公司表现依旧令人瞩目，不少模型一经推出就获得广泛关注。

OpenAI 同时发布了两个连接文本与图像的神经网络：CLIP 和 DALL·E 。基于这两个模型，机器学习社区的开发者在文本与图像的匹配方面尝试了很多新的玩法。

谷歌大脑团队公布了 Vision Transformer(ViT)进阶版 ViT-G/14，参数高达 20 亿的 CV 模型，经过 30 亿张图片的训练，刷新了 ImageNet 上最高准确率记录——90.45%。

……

此外，过去一年间 CV 领域的论文发布也堪称百花齐放。据统计，今年的 CVPR(Computer Vision and Pattern Recognition，计算机视觉领域顶级峰会之一)举办的 12 次会议共发表了超过 1600 篇论文，其中一些新主题来到了聚光灯下。

其一，使用对抗样本学习。通过对抗性学习，当加入不同级别的噪声时，每个样本的可靠性可以根据其预测标签的稳定性来估计。这使模型能够识别和关注对噪声更具弹性的样本，从而降低其对对抗性示例的敏感性。

其二，自监督和对比学习。自监督学习是创建数据高效人工智能系统的几种计划之一，主要是利用辅助任务(pretext)从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。

其三，视觉语言模型。VL 使用不同形式的数据，可以更好地进行特征映射和提取。此外，可以使用大量数据样本来训练这些系统。与自监督学习类似，学习到的特征是通用的，可用于多个下游任务。此外，VL 模型可用于学习更好的视觉特征和增强语言表示。

其四，有限数据学习。弱监督学习和迁移学习有助于减少训练 CV 模型所需的标记数据量，从而增加这些模型在工业中的应用和采用。弱监督学习还可以帮助模型在存在噪声标签的情况下表现得更好。不过，弱监督学习和迁移学习都是相对较新的领域，要在工业中使用尚需时日。

商业：潜力无穷，暗流汹涌

自 2012 年计算机视觉领域出现神经网络技术之后，算法进行多次稳步改进，在某些视觉任务上的性能已经可以与人类相媲美，甚至有所超越。随着计算机视觉技术日趋成熟，其商业价值和发展潜力也得到了资本市场的普遍认同。

根据 Crunchbase 统计，过去 8 年里约 1800 家计算机视觉创始公司获得风险投资超 150 亿美元。仅就中国市场来说，计算机视觉行业市场规模发展也相当迅速，据前瞻产业研究院整理，2020 年我国计算机视觉产品的市场规模占整个人工智能行业的 57%。

就行业分布来说，热门赛道集中于零售、安防、制造、医疗。

零售业可基于场景化营销、商品识别分析、消费者行为分析、防盗损等应用，为改善用户体验、门店运营智能化改革提供了途径;安防作为 CV 落地最早的场景之一，在视频监控、智能交通、智慧园区等领域应用广泛;制造业对 CV 技术的使用包括智慧现场安监、预测性维护、智能辅助运输和工业视觉质检等方向，场景丰富多样;在医疗领域，CV 产品和解决方案作为提升现代医疗诊断和治疗水平的重要工具, 使实施风险低、创伤性小的手术方案成为可能。

总体而言，计算机视觉和产业融合的加深，也加速了产业规模的增长。资料显示，到 2025 年我国计算机视觉技术及视觉核心产品及带动的相关产业规模将达到 6000 亿。不过，这个赛道固然潜力无限，但对于身处这个赛道的玩家来说依旧暗流汹涌。

2021 年 12 月，在商汤科技上市的关键时刻，美国财政部将其列入“中国军工复合体企业”清单，美国投资人被禁止投资商汤科技。而在此前被列入制裁名单的还有与商汤科技并称“AI 四小龙”的另外 3 家企业(旷视科技、云从科技、依图科技)。

当前，中美两国在科技领域角力日趋激烈。在互联网行业整体发展放缓的大背景下，美国对中国人工智能公司的打压无疑是雪上加霜。截至 2021 年 12 月 31 日，同属于计算机视觉领域的“AI 四小龙”均已启动上市计划，但仅有商汤科技几经波折后在港股成功上市。

四小龙上市之路的曲折多舛，撇开外因作用，折射的更多是整个 AI 行业在商业化之路上的步履维艰。

AI 发展几经起落，与其烧钱快、落地难的现实不无关系。以 AI 四小龙为例，他们同处计算机视觉领域，创业之初产品同质化程度较高，落地场景也较多地集中在安防和金融领域，要寻求发展，开发更多的产品解决方案和落地场景是刚需。但要在更为细分的赛道力求落地无疑是更大的挑战，在持续的业务扩张、高昂的研发投入下，落地不及预期的阴影始终没有散去，常年亏损的局面也未有扭转。

计算机视觉技术的应用落地需要更深入业务、更深入行业，加强用户洞察，满足千人千面的需求，这要求企业未来在重视前沿算法研发的同时，进一步加强算法和商业应用的融合，在产业落地的深水区，寻求和其他行业、合作伙伴共建生态，实现价值闭环。

五大趋势

纵观 2021 年计算机视觉领域的整体发展，英特尔软件创新者、谷歌开发者专家 Sayak Paul 提出了五大新趋势。

趋势一：资源更高效的模型(Resource-Efficient Models)

原因：

最先进的模型通常很难在轻量设备(比如手机、Raspberry Pis 和其他微处理器)上离线运行的。
较重的模型往往具有较明显的延迟(这里表示单个模型运行前向计算的时间)，并且会显著影响基础设施的搭建成本。
出于成本、网络连接、隐私等问题考虑，如果基于云的模型托管不是一个可选项?

趋势二：创造性应用的生成式模型

原因：

生成式模型已经取得了长足进步。
现在生成式对抗网络 (GAN)几乎可以创建任何以假乱真的图片。示例请参考https://thisxdoesnotexist.com/
可以实现多种功能：图像超分辨率(Image Super-Resolution)、域转移( Domain Transfer)、图像外扩(Extrapolation)、隐式神经表示和 CLIP(Implicit Neural Representations and CLIP)

趋势三：自监督学习

原因：

自监督学习不使用任何 GT 标签(Ground Truth Labeler )，而是使用前置任务(pretext tasks);然后使用大量未标注的数据集进行模型训练。

与之相比，监督学习存在这样一些挑战：

需要大量标注数据来推动性能提升
标注数据的人工成本很高，且有可能存在偏差
大规模的数据标注与训练需要占用较长时间

总体来说，未标注数据的准备成本非常低，而且在计算机视觉领域，SEER 等(一种自监督模型)模型在对象检测和语义分割方面的表现要优于监督学习。

趋势四：Transformers 与 Self-Attention 的使用

原因：

Transformers 是一种新的机器学习架构，采用的是 Self-Attention(自注意力)机制，其与传统 Attention(注意力)机制有很大不同。这种方式能通过量化成对实体之间的关系(pairwise entity interactions)，有效获取源端或目标端自身词与词之间的依赖关系，有助于网络学习对齐数据中的上下文信息。另外，当 self-attention 与 CNNs 相结合，会构建强大的 baselines(BoTNet)

与 CNN 相比，Transformer 的优势：

较少的归纳与先验，因此可以被认为是一种适用于不同学习任务的通用计算基础
参数有效性和性能与 CNNs 相当

与 CNN 相比，Transformer 的劣势：

预训练时，对大数据机制的依赖性更强。因为 transformer 没有和 CNNs 那样的明确定义的先验

趋势五：鲁棒视觉模型

视觉模型容易受到很多因素干扰，影响其性能。

目前主要面临以下三个问题：

扰动。深度模型对输入数据中难以察觉的变化不够鲁棒;
形变。深度模型会率先对高频出现的区域做出反应，使得其容易受到常见的损坏(如模糊、对比度、缩放等)的影响
分布外数据。

可以提升鲁棒性的尝试：

对抗训练(Adversarial training)：类似于拜占庭容错，其基本是让模型能够在面临糟糕情况时做好自行处理的准备;
一致性正则话(Consistency regularization)：期望模型能够对有噪声的输入具有一致性;
立即检测异常数据点。

结语

计算机视觉带给机器的并不止于通过视觉理解世界的能力，更是与世界建立联系，基于理解进行决策，最终实现交互的路径。像其他技术一样，CV 也经历着缺口、泡沫、泡沫挤出、理性回归、再度崛起的起起落落，商业化依旧任重而道远。不过我们依然愿意相信，历史的车轮永远向前，距离计算机视觉普惠人类生活的那一天已经不会太远。

附参考资料：

从 CVPR 2021 的论文看计算机视觉的现状：

https://www.163.com/dy/article/GEUJ8CG50531D9VR.html#post_comment_area

IEEE Fellow 梅涛：视觉计算的前沿进展与挑战：

https://www.yanxishe.com/blogDetail/28319

2021 年中国人工智能行业市场现状与优势赛道分析计算机视觉成为千亿级大赛道：

https://baijiahao.baidu.com/s?id=1711947993304727146&wfr=spider&for=pc

Sayak Paul | Deep Learning, Computer Vision, etc.：

https://sayak.dev/

【51CTO原创稿件，合作站点转载请注明原文作者和出处为51CTO.com】

AI 江湖风云变幻 计算机视觉路在何方