计算机视觉是自二十世纪六十年代中期迅速发展起来的一门新学科。计算机视觉是使用计算机及相关设备对生物视觉的一种模拟,主要任务是通过对采集的图片或视频进行处理以获得相应场景的视觉信息,就像人类和许多其他类生物每天所做的那样。计算机视觉在工农业生产,安防,地质学,交通,医学及军事学等等领域有着极大潜在的应用价值,所以它在国际上越来越受到重视。比尔盖茨曾说:IT界的下一个大事件是计算机视觉(computer vision)与深度学习(deep learning)的结合。早在前年6月中旬访问北京时,他到访的***家创业公司就是一家计算机视觉的公司。这家公司就是格灵深瞳,曾在2014年获得来自红杉的数千万美元B轮融资。坐落在颐和园边、西山河畔,有一个小桥流水亭台楼阁的28亩院子。
近日,51CTO的记者有幸采访了格灵深瞳联合创始人兼CTO赵勇。赵勇是美国布朗大学计算机工程系的博士,毕业后供职于Google总部研究院任资深研究员,他也是Google Glass最早期的核心研发成员,2013年4月作为联合创始人创立格灵深瞳。
格灵深瞳联合创始人兼CTO赵勇
格灵深瞳致力于让计算机看懂世界,用广泛的视觉传感器网络,构建真实世界的搜索引擎。2013年4月,赵勇作为联合创始人创立格灵深瞳,作为***技术官,带领技术团队成功研发出了“深瞳无人监控安防系统”,一举解决了传统安防监控行业“看不见”和“找不到”的行业基本痛点。传统的安防监控中心,一个保安需要同时看几十上百路视频,即使发生了异常事件,能够被保安看到的概率也是非常小的;而当一件事情发生以后,需要靠人力去大量的硬盘数据里面寻找线索,这是一项极其浩大的工程,耗时特别长,效率特别低,而格灵深瞳的产品可以很好地解决这两个行业瓶颈。
2014年4月格灵深瞳首款产品“深瞳无人监控安防系统”工程样机开发完成,并得到国有四大银行中三家大行的青睐,10月开始在多省市进行全面售前测试。该套系统可以解决传统安防行业的发展瓶颈,直击行业痛点,具有巨大的市场潜力和开拓能力。
创立格灵深瞳源于好奇心的驱使
赵勇毕业于美国布朗大学,曾在三菱电器研究所、爱普生实验室、Nvidia实验室和惠普实验室担任实习研究员。2010年起,供职于谷歌总部研究院任资深研究员。这些公司无疑都是业界的标杆,为何还要走上创业这条充满艰辛的路?赵勇的回答是:好奇心。就是想尝试一下重新开始做一个团队是什么感觉。在谈到51CTO的线下中高端技术人学习平台CTO训练营的时候,赵勇也谈到对CTO这个岗位以及技术管理的理解。首先是三年多的创业经历让赵勇感受到了中西方团队的氛围的不同。在西方国家的企业,无论是技术层面还是企业文化都比中国的更专业化,而中国企业的人情味更浓。自己也是一直在平衡着这种不同,把西方文化、企业管理比较适合中国的引进进来,同时,不断学习本土企业文化。
格灵深瞳在做什么
格灵深瞳将计算机视觉和深度学习技术应用于商业领域,自主研发的深瞳技术在人和车的检测、跟踪与识别方面居于***水平。目前公司已将其应用到了安防监控和智能交通领域,推出了颠覆行业的突破性产品。
主要技术有:
1.三维计算机视觉
三维计算机视觉和传统的二维图像处理技术相比,增加了物体的深度信息,更完整的真实的还原了物体信息,解决了相互遮挡、比例混淆、影随人动的问题,提高了智能检测和分析的准确度。
2.深度学习
深度学习是由传统神经网络发展的一类机器学习算法。通过类似脑神经网络的深度学习模型,让计算机像人一样在真实世界中吸收、学习和理解复杂的信息,完成高难度的识别任务。
主要产品有:
1.皓目行为分析仪:划时代意义的安防产品,真正意义上的人工智能。
2.威目车辆特征识别系统:基于深度学习的新一代车辆识别引擎,以在线云服务、离线SDK、软硬一体的产品形式让企业级用户和直接业务部门可以快速应用***的车辆识别技术。
3.威目视图大数据系统:基于视图结构化提取的车型、车系、年款等关键信息,对套牌车、假牌车的分析进行有力比对;利用人体/人脸结构化识别的信息,对目标嫌疑人员进行快速定位;配合结构化特征信息,对嫌疑车辆/人员实行快速的以图搜图应用,大幅提高利用效率。
赵勇透露:“格灵深瞳目前同时进入了三个领域;安全、汽车、医疗。最近刚刚分拆出了多家公司,每个团队都在各自细分领域里面去做,而它所依赖的核心知识基本上是一致的。”
我们不是微软Kinect,不是PrimeSense,也不是Asus Xtion。
“我们不是微软Kinect,不是PrimeSense,也不是Asus Xtion。我们的产品不是传感器元件本身。事实上,传感器公司是我们的合作伙伴。我们的传感器网络中适配的也不仅仅是一款三维传感器。因为不同的传感器能力和适用条件不同,有时候我们需要把多种传感器集成在一个外壳下。目前,格灵深瞳正在和几乎全世界所有的三维传感器公司合作,把这种伟大的技术带到各种完全不同的应用领域。目前我们的产品线包括适用于微小空间的手势识别、适用于室内中等空间和室外大空间的行为识别,适用于汽车的全天候路况和驾驶安全识别,以及适用于道路检测的车辆和行人行为识别。”赵勇告诉记者。
既然格灵深瞳是软件公司,那和微软的Kinect,以及PrimeSense主导的OpenNI等人机交互技术有什么区别呢?上述两种技术解决的问题是在近距离空间里的人为了和面前的计算机之间进行主动交互的姿态识别问题。这样的技术是专门为了游戏机和电视遥控等客厅场景设计的。而格灵深瞳面对的客户场景更大,人更多,人们的行为不是为了配合交互而且更加复杂,因此往往要处理人与人之间的重叠遮挡问题。格灵深瞳在人体动作分析方面的技术是专门针对这种现实场景的挑战而设计的。
计算机视觉和机器视觉的区别
对于这个问题,赵勇表示,计算机视觉是一个更大的领域。其中一个应用领域是在工业,一个例子是质量控制。这时也被称为机器视觉。所以可以说,计算机视觉是一个更大的领域,机器视觉一般来讲是一个比较狭义的概念。
计算机视觉对51CTO的线下中高端技术人学习平台CTO训练营来说,也是一个全新的领域。
人工智能一直是一个失败者,但它必须成功
有人说计算机视觉是人工智能的下一个科技前沿,但赵勇认为“人工智能一直是一个失败者,但它必须成功。” 人们对人工智能的理解,可能最早要推到二战的时候,计算机用于去破解敌方的密码。后来很多理论学家、计算机学家出现,这个领域差不多也兴旺过三四次,但最终都销声匿迹了。这次是一个新的浪潮,有三个特点:***,技术进入到了实用领域。第二,今天人工智能做的有些事情能力上甚至超过了人。第三,今天的技术已经有了很多行业化的应用,一旦有了商业化的应用后,这个领域获得的资源就不一样了,以前都是国家拨经费,现在变成了金融领域的投资,因为大家觉得它可能快成熟了。
人工智能必须要成功,因为我们如果想超越自己的话,就只能靠人工智能的帮助了。
计算机视觉下一个应用
说到计算机视觉未来的应用方向,赵勇认为安全、无人驾驶、医疗、机器人将是计算机视觉接下来的主要应用领域。
我们未来的生活可能每个毛孔里都有人工智能,未来,深瞳技术的开放平台将不断把格灵深瞳***的技术提供给广大合作伙伴,为各行各业带来最有效的技术解决方案。