【WOT2018】实践才能出真知，人工智能在行业业务应用中的探索实践

作者：杜美洁 2018-12-24 14:58:02

本届WOT峰会的《业务实践》分论坛上，来自蘑菇街的图像搜索技术负责人宋宏亮，贝壳找房租赁平台的数据策略负责人严言，金山办公的AI领域专家、高级工程师黄鸿波，分别从各自行业业务场景出发，分享了人工智能的业务实践案例。

【51CTO.com原创稿件】2018年11月30日-12月1日，由51CTO主办的WOT2018全球人工智能技术峰会在北京粤财JW万豪酒店召开。本届峰会从人工智能技术赋能行业升级的角度出发，紧跟技术潮流，紧抓时事热点，覆盖人工智能平台工具、算法模型、语音视觉等技术主题内容，带来了一场AI前沿理论与尖端技术激烈碰撞的知识盛宴!

本届WOT峰会的《业务实践》分论坛上，来自蘑菇街的图像搜索技术负责人宋宏亮，贝壳找房租赁平台的数据策略负责人严言，金山办公的AI领域专家、高级工程师黄鸿波，分别从各自行业业务场景出发，分享了人工智能的业务实践案例，与到场的听众一起探索人工智能在不同行业中的业务应用。

视觉搜索技术系统与业务应用

随着移动应用和内容业务的发展，视觉搜索技术日益成为用户增长和应用体验提升的关键因素。蘑菇街图像搜索技术负责人宋宏亮在《视觉搜索技术系统与业务应用》的演讲中，首先分析了图像检索的两种方式，然后结合蘑菇街的海量图片/商品数据和互联网业务场景，介绍了蘑菇街在视觉搜索方向上的技术探索和业务实践演进历程，并通过具体的业务案例，解读了视觉搜索技术的落地应用之路。

蘑菇街的图像搜索技术负责人宋宏亮

据宋宏亮介绍，图像检索是计算机视觉方向出现较早并广泛研究的领域，按照描述图像内容方式的不同可以分为两类，一类是基于文本的图像检索，另一类是基于内容的图像检索。随着图像数据快速增长，基于文本的图像检索方法的问题日益凸现，后来业界达成共识，认为索引图像信息的最有效方式应该是基于图像内容自身的。

基于内容的图像检索技术将图像内容的表达和相似性度量交给计算机进行自动的处理，克服了采用文本进行图像检索所面临的缺陷，并且充分发挥了计算机擅于计算的优势，大大提高了检索的效率，从而为海量图像库的检索开启了新的大门。当然，这种方式也存在缺点，主要表现为特征描述与高层语义之间存在着难以填补的语义鸿沟，并且这种语义鸿沟是不可消除的。

目前，基于内容的图像检索技术已经深入到了许许多多的领域，为人们的生活生产提供了极大的便利。基于内容的图像检索技术在电子商务、版权保护、医疗诊断、公共安全、街景地图等工业领域具有广阔的应用前景。其中，在电子商务方面，谷歌的Goggles、阿里巴巴的拍立淘等闪拍购物应用，允许用户抓拍上传至服务器端，在服务器端运行图片检索应用从而为用户找到相同或相似的衣服并提供购买店铺的链接。

典型的基于内容的图像检索基本框架

电商场景的数据来源主要包含卖家和用户两个部分。其中，卖家分为普通商家和直播主播，普通卖家上传商品图，包括商品主图、附图、SKU图和详情图等，主播生产直播内容，也包含了商品的截图和视频。而用户分为普通用户和达人用户，普通用户对应的内容是UGC、买家秀等，达人用户则是PGC内容。基于以上数据源，就可以构建后台的图像数据库，对图像数据处理，包括款式属性识别、OCR文字识别、图像特征检索等。

宋宏亮表示，电商中的图像数据集具有三个主要特征：图像数据量大、特征维度高以及要求响应时间短。对于一般图像检索，在检索相同的物体或目标时，易受拍摄环境的影响，比如光照变化、尺度变化、视角变化、遮挡以及背景的杂乱等都会对检索结果造成较大的影响;对于非刚性的物体，在进行检索时，物体的形变也会对检索结果造成很大的影响。

而电商场景下的视觉检索还有很多其他的难题。比如：电商平台上每天都有频繁的商品上架和下架，对整体的索引构建造成很大挑战;数据规模是把双刃剑，虽然有足够的数据可以进行模型训练，但是庞大的数据给搜索带来了压力;因商家上传低质量的买家需求图片或者放错类目等原因，导致数据的质量不能得到保障。

面对以上挑战，蘑菇街视觉搜索技术团队进行了很多技术研发，最终构建了如下图所示的视觉搜索技术架构。从图中我们可以看到，接收到用户搜索查询，先进行类目预测，再进行目标检测，检测出所需要的内容;接下来，通过特征提取器，提取图像的特征的表达;然后，基于ANN检索得到一些充分的检索结果;最后，通过ReRank的方式得到最终结果。

蘑菇街视觉搜索技术架构

紧接着，宋宏亮为大家解读了其中的一些重点技术。

类目预测：主要针对图像质量评估、同图过滤、类目分类三个方向展开。

图像质量评估：需要基于不同的类别进行分析，例如，较多自然景色和人肖像不同。有12个评价标准：BalancingElement，ColorHarmony，Content，DoF，Light，MotionBlur，Object，Repetition，RuleOfThirds，Symmetry，VividColor，Score。

同图过滤：采用phash(全称是感知哈希算法，Perceptual hash algorithm)，使用该方法可以对每个图片生成一个哈希值，任意两个图分别转为二进制表示，然后计算他们的hamming distance，两张图片的距离越相近, 说明两张图片就越相似。

类目分类：建立类目树，分为了十个大类和504个四级类目，缩小检索数据量，提升检索精度。

图像特征学习：作为迁移学习的一种，finetune能够将general的特征转变为special的特征，从而使得转移后的特征能够更好的适应目标任务，而图像检索最根本的问题，仍在于如何在目标任务上获得更好的特征表达(共性与可区分性)。一种很自然的方式便是在特定的检索任务上，我们对imageNet学得的general的特征通过finetune的方式，使得表达的特征能够更好的适应我们的检索任务。通过基本的classification loss的finetune的方式，能够较大幅度的提高检索的mAP。

那么在具体的业务中，视觉搜索技术是怎么应用的呢?这里我们举个例子，在电商基础业务中，需要对商家上传的商品图片进行同款审核，并对审核后的结果做在线巡查，基于视觉搜索技术上线了同款识别系统进行同款商品判断，系统识别准确率为99.06%，漏检率为3%。

贝壳租房的真房源模型与信用体系建设

当前，在房屋租赁领域，仍存在着诸如房源信息不真实，信任体系缺失，以及信息匹配效率偏低等痛点。贝壳找房租赁平台数据策略部负责人严言从贝壳租房自身的实践经验出发，介绍了贝壳租房通过大数据与机器学习的方法管控房源真实性，同时建立完善的租赁信用体系，不断提升商家提供的服务品质，提高行业信息匹配效率。

贝壳找房租赁平台数据策略部负责人严言

针对上图中所示的诸多市场痛点，贝壳找房是怎样解决的呢?贝壳找房的真房源模型设计和解决方案是怎样的呢?

严言表示，首先我们要清楚真实房源的标准是什么。根据目前的非真实房源情况，贝壳找房定义了四个标准：第一，真实存在。房子要真实存在，不能是出租根本不存在的一套房子;第二，真实在租。房子需要是真实在租状态，不是刚刚租出去了，而要去看别的房源;第三，真实感知。提供的信息需要与房屋真实情况一样，比如图片与出租房屋一致。第四，真实价格。

其次，要清楚在住的领域与租赁领域正在面临的问题有什么不一样。具体差别，我们可以从下图中了解：

基于以上考虑，贝壳找房技术团体设计了如下图所示的房源品质控制整体框架：

框架图中左边是数据源、平台对接、数据流转、基于品控的产品或服务四部分内容，右边是品控系统，主要包括真房源模型与信用体系的建设。在真房源模型中，真房源的统计方法主要是抽样统计，延迟统计(记录每天镜像)，乐观性统计(只查验全部疑似问题房源)。

在上面图中我们可以看到，之前提到的四真标准。对此，严言表示，针对每一个真的标准，都需要建立独立的模型。以“真实在租”这个标准为例，需要用房态模型去判断房子的当前状态，比如通过语音识别，用户与经纪人在联系的过程中，经纪人有没有出现违禁。最终针对四个标准点下所有的模型，综合出一个真实度排序，从而实现真房源的门限和问题房源门限能够不断地接近和同时下降。

也就是说，在高于N1这个门限，可以认为不需要人工接入，系统判定95%以上的置信度，就是一个真房源，省去人工介入。如果判定在N3以下，系统判定置信度95%是一个问题房源，也不需要人工介入。但是，不可能完全抛弃人工，有些内容是系统无法界定的，就被称为疑似房源，需要线上和线下的综合判断。

首先，需要让N1和N3尽量接近，实现疑似房源量总量下降。其次，让N1和N3尽量接近之后，再让其下降，让真房源的比例越来越高，最终实现优化。从量化上来看，希望达到三个目的：固定与量化优秀服务者的行业经验，兼顾真房源门限与问题房源门限，降低线下审核人力，提高作业效率。

最后谈及加盟平台下的信用体系建设，严言认为，疏导才是治本。怎样疏导呢?就是让为真房源做贡献的商家获得利益。完善的信用体系是保证租赁市场良好运转的基石;通过商家信用分，服务者信用档案以及租客信用分的建设，正向引导，赋能行业;有了商家信用分，就可以区分出信用良好的商家，在商机和运营活动上给予激励，树立标杆作用。

知识图谱在企业中的落地

金山办公AI领域专家、高级工程师黄鸿波在分享中指出，在面向对象的时代里，我们常说万物皆对象，之前我们只是来分析对象的个体，随着互联网和社交网络的发展，对象与对象之间的联系变得越来越紧密，我们把一个对象称之为一个实体，我们现在对于实体之间关系的分析变得尤为重要，我们可以使用知识图谱相关技术，来挖掘实体之间的关系，从而找到其中的商业价值，打造自己的知识图谱应用。

金山办公AI领域专家、高级工程师黄鸿波

黄鸿波认为，数据量的庞大，非结构化的保存以及历史数据的积累，导致我们的信息知识体或者各种各样的实体越来越膨胀，我们需要将各种各样的知识连接起来，形成知识图谱。

知识图谱一般用在哪里?黄鸿波介绍说，以金山办公为例，做知识图谱主要是用来找人与人之间的关系，用户与用户之间的关系，这是很多公司中比较常用的一种应用。另外，还有实体与实体之间的关系，比如知识与知识之间的关系，企业与企业之间的关系。

黄鸿波认为，可以把实体理解为以前面向对象中的对象。任何一个事物都可以是一个对象，放在知识图谱里，可以说任何一个对象都可以成为一个实体，这就是知识图谱的一个核心概念。

知识图谱在农业中的应用

以知识图谱在农业中的应用为例，氮素缺乏会导致哪些病症，氮素过量会有哪些病症，对这些病症应该作何处理，有什么防治方法。在研究知识图谱的时候就是寻找关系，从而建立各个实体之间的关系。

提到知识图谱中的图数据库选型。黄鸿波表示，在做知识图谱或者知识图谱的选型中，最常见的问题就是图数据库的选择问题。任何一家公司做知识图谱的目的都是落地。Neo4j和Cayley是知识图谱中比较常用的两个图数据库，最终金山办公技术团队选择了Cayley。

为什么选择Cayley?首先考虑数据体量问题，所选用的数据库是否能够支持大体量的数据。Neo4j的缺点：一是不开源，开源版没有核心内容，一旦出现问题后期难以处理;二是不支持分布式，无法做分布式存储、集群。此外，黄鸿波强调，在选择图数据库的时候，除了分析图数据库的体量是否能够满足自身的数据库，还要看是否能够支持单机的运算速度以及性能，考虑实际的应用场景需求。

最后，黄鸿波表示，知识图谱的落地主要有六个方面：知识的建模、知识的获取、知识的融合、知识的存储、知识的计算、知识的应用。

以上内容是51CTO记者根据WOT2018全球人工智能技术峰会的《业务实践》分论坛演讲内容整理，更多关于WOT的内容请关注51cto.com。

【51CTO原创稿件，合作站点转载请注明原文作者和出处为51CTO.com】

责任编辑：蓝雨泪来源： 51CTO

人工智能 AI 视觉搜索