贝壳找房推动图谱技术落地,促进地产服务生态链正循环

原创
人工智能
日前,贝壳找房知识图谱技术大会在北京环球财讯中心召开。知识图谱作为近年来人工智能领域里一项比较热门的技术,被广泛应用于智能搜索、智能问答、智能推荐等场景中。本次会议由来自贝壳找房智能搜索团队的四位专家担任主要讲师,300多名AI领域开发者及爱好者受邀参加,和与会嘉宾共同分享图谱技术在贝壳落地的实践经验和应用成果。

【51CTO.com原创稿件】

[[286886]]

日前,贝壳找房知识图谱技术大会在北京环球财讯中心召开。知识图谱作为近年来人工智能领域里一项比较热门的技术,被广泛应用于智能搜索、智能问答、智能推荐等场景中。本次会议由来自贝壳找房智能搜索团队的四位专家担任主要讲师,300多名AI领域开发者及爱好者受邀参加,和与会嘉宾共同分享图谱技术在贝壳落地的实践经验和应用成果。

  关系图谱在贝壳找房风控侧的落地

  贝壳找房资深工程师王学志围绕关系图谱在贝壳风控侧的落地,详细阐述了关系图谱在贝壳风控体系中的应用。王学志介绍,贝壳的业务模式基于ACN经纪人合作网络。风控与业务是强相关的,因此贝壳的行业属性和业务模式决定了贝壳的风控场景也有其鲜明的特点。

[[286887]]

贝壳找房资深工程师王学志

  ACN经纪人合作网络是指在遵守房源信息充分共享等规则前提下,同品牌或跨品牌的经纪人之间以不同的角色共同参与到一笔交易,成交后按照各个角色的分佣比例进行佣金分成的一种合作模式。这一模式实现了跨品牌间房源、客源和经纪人之间的联动,同时也导致贝壳的风控体系构建要考虑如下因素:业务分为线上线下,交易链条长、环节多;同时面临加盟商风险和经纪人风险;对经纪人问责时要提供完整的证据链;业务场景多,涵盖租赁、新房、二手房买卖;交易场景具有低频、大额、长周期的特点。

  王学志指出,之所以把关系图谱应用在风控中,一是因为关系图谱可以呈现点、线、面的风险刻画,非常适合团伙攻击;二是贝壳从自身实际出发,相较于小b违规,从危害程度来说大B风险为优先处理的重点。而且大B违规和复杂的关联关系是强相关,适用于关系图谱。

  据介绍,整体架构上,贝壳关系图谱分为四层,包括基础数据、知识构建、知识挖掘、业务应用;技术选型上,贝壳选择了Spark Graph X作为图分析计算引擎,Janus Graph作为图查询工具;应用场景上,关系图谱在贝壳风控体系中主要被用于准入防控、风险量化、品质管理、风险发现、查案溯源。

  王学志提到,未来关系图谱在贝壳风控侧的应用将主要集中于两个方面:深造基础能力,包括知识推理、知识融合、高密子图挖掘、Graph embedding等等;拓展业务应用,包括在风险治理上推动违规溯源智能化、违规模式自动学习等等,在用户增长方面,通过关系图谱进行经纪人信用记录,并据此进行经纪人to B推荐、to C推荐。

  关系图谱在贝壳找房的构建与应用

  贝壳找房资深算法工程师周玉驰以“关系图谱在贝壳的构建与应用”为主题,分别就贝壳构建关系图谱的动因、设计过程以及应用实践做了深入解读。

贝壳找房资深算法工程师周玉驰

  周玉驰首先提出了一个问题——贝壳为什么要做关系图谱。一般来说,房产行业关系图谱的节点是由经纪人、房、客等构成。关系通常包括浏览、关注、带看等行为关系。随着业务的快速发展,贝壳积累了海量数据。面对亿级别的行为数据,用什么方法来挖掘数据背后的价值呢?贝壳的答案是关系图谱。

  周玉驰认为,从0到1构建关系图谱的过程中离不开三个核心:关系图谱能做什么;怎么设计;如何应用。他以贝壳关系图谱的整体技术架构为切入口进行了集中阐述。

  架构由下而上分为基础图谱、子图谱、图谱能力、图谱应用四层。最底层是基础图谱,基础图谱定义了各种行为关系。基础图谱之上又进行了子图谱建设,子图谱包括关系强度、同质图、异质图。其中,关系强度的量化是建设过程中的重中之重。基础图谱与子图谱共同奠定了关系图谱的基石。基础打完后进行了图谱能力建设,具体包括多度查询、影响力、Embedding、聚类、相似、关系预测这六大能力。最后基于图谱能力进行了应用探索,开发了房客通、智能客服等应用工具。

  在关系图谱的基础建设中,关系强度的量化是一个非常关键的问题。贝壳在构建过程中主要考虑了三个衡量因素:权重、频率、时间。周玉驰解释:“不同关系类型权重不同,比如说带看行为权重高于浏览行为,我们认为浏览是轻行为;高频关系大于低频关系;近期关系大于远期关系。总体来说,基于业务理解,再结合数据生产,我们定义了不同关系类型的权重。同时,我们采用模型化的方式进行计算,将一些行为数据和我们的理解进行交叉验证。”

  在关系图谱的能力建设中,周玉驰重点介绍了影响力、Embedding、相似、关系预测这四种能力。就节点影响力来说,贝壳采用的是度中心性方法。通过增加用户连接数进而增加用户转化率对贝壳而言意义重大;在常见的Graph Embedding方法中,贝壳结合自身发展实际,对于同质网络采用了Node2vec,并采用了side info进行优化,与此同时,针对异质网络尝试了Metapath2vec。能力层面,基于Embedding可以进行相似的计算,例如:相似房源、相似用户。另外,关系预测的实现有两种路径,一是基于相似房源或者相似用户,结合关系强度进行推导,二是基于异构网络UserEmbedding和HouseEmbedding预判房屋与用户间的关系。

  在关系图谱的应用探索上,周玉驰主要从多度查询和向量化两个角度进行了详细说明。

  贝壳基于多度查询的两个应用,其一是房客通,一款贝壳内部为经纪人和客需求进行连接的产品,其二是挖掘图谱,以用户为中心,基于基础图谱来找到符合需求的直接相连房源,再通过图谱能力进行挖掘,或者通过房特征找到相似房源,给用户推荐与用户相关的子图,以可视化的方式进行展示推荐。

  贝壳基于向量化探索的应用比较典型的是推荐功能。普遍来说,经纪人为客户找房子的方式还停留在比较原始的阶段,比如搜索微信群或者朋友圈、向门店其他经纪人询问、房源交流会时的沟通交流等。但贝壳可以通过人、客、房匹配策略算法对经纪人进行助力,一方面为经纪人筛选客户,推荐合适房源;一方面还可以通过为优质房源匹配客户来提升成交率。

  分布式图数据库在贝壳找房的应用实践

  贝壳找房搜索平台负责人高攀的演讲主题更偏重于关系图谱的基础建设,主要围绕图数据库展开。

[[286888]]

贝壳找房搜索平台负责人高攀

  高攀对图数据库的定义和应用领域进行了简述:所谓图数据库,不是存储图片的数据库,而是存储节点和关系,以图结构进行存储和查询。其应用场景非常广泛,在社交网络、搜索推荐、风险管理、业务流程、事件关系等领域都可以用图数据库来解决。

  随后,高攀解释了图数据库平台对贝壳的必要性。

  “贝壳找房目前最大的行业图谱量级已经达到480亿三元组。一个很现实的问题就是,如此海量的数据应该如何存储才能支持业务的高效查询?同时我们考虑到是不是可以有一个通用的图数据库平台来支撑所有需要使用图数据库的场景?让上层做图谱的同学可以更专注于策略或算法,而不需要花精力去关注底层的存储技术实现,答案显然是肯定的,我们需要统一的图数据库平台。”

  在这一需求的驱动下,贝壳找房开始寻找合适的图数据库,在考虑到开源、性能、稳定性、成熟度、易用性、可扩展性、运维成本等因素后,最终决定在DGraph和JanusGraph间做出选择。在经过架构、副本、数据一致性、查询语言、全文检索、可视化、写入性能、查询性能、运维成本等方面的对比后,最终选用了DGraph。贝壳在完成图数据库集群搭建、数据导入后的性能压测中,也得到了相当满意的结果:在这480亿数据中的查询都可以达到50毫秒以内,并且并发可以到15000多QPS。当然DGraph也有缺陷和不足:不支持多重边、一个集群只支持一个图、大数据生态兼容不够,总体还有不少可以改进的空间。

  高攀提到,下一步贝壳找房在图数据库建设上将继续对其性能稳定性做深入优化,包括对其源码进行改进;其次,推进图数据库作为搜索中台基础引擎,支持各种图数据库检索需求;结合搜索云平台界面化操作、快速配置接入,简化其运维成本。当分布式图数据库在贝壳成熟以后,可以统一支持公司内各种知识图谱、风险关系图谱等,真正做到所有图谱需求不用再关注于底层存储技术,只需要关注图谱构建或应用的策略算法。

  行业图谱在房产领域的应用实践

  贝壳找房行业图谱负责人孙拔群就行业图谱在房产领域的建设和应用这一主题和与会者进行了分享。

[[286889]]

贝壳找房行业图谱负责人孙拔群

  孙拔群认为,对于一个行业公司来说,通过内部数据,可以完成自我剖析和定性描述;通过外部数据,可以明确市场定位和定量描述,了解自身在行业整体所处的发展状况;通过融合数据进行分析,可以最终达成业务目标,即通过行业知识图谱实现自身的战略规划和愿景使命。

  孙拔群简要说明了通过行业知识图谱解决问题的思路——首先,制定目标,推导价值;然后,选择方案,路径达成;最后,评价效果,形成循环。

  “我们基于行业图谱去测算出我们整体在全国各个城市里面的价值空间。得到价值空间,就有了基本的核心目标,明年要进行GMV提升,这是基于公司层面的战略指标和定义。具体落实到执行,那就要进行目标拆解,一方面通过智能问答、知识推理、社区发现这些图谱技术应用来直接促进业务目标达成,另一方面通过基于行业知识图谱建立的行业情报系统,以提效工具、线索增量、大盘决策等工具来推动目标实现。最后通过效果评价,形成正向循环。”

  孙拔群对于行业数据的引入、加工和融合做了相关说明。类型上说,主要的行业数据可以分为五大类:标竞品,要做到知己知彼;专业内容,包括国家相关政策和宏观经济环境等;上下游,比如开发商、物业、建筑商的数据;环境周边,即房源周围的环境数据;用户群体,不用赘述。由于这些数据来源各不相同,结构差异化大,因此引入这些数据之后要做数据清洗和实体融合,之后就可以着手建立行业知识图谱。

  孙拔群最后提到了未来一年贝壳找房将在行业图谱智能应用上研发的方向。其一,IM助手,为经纪人提效。通过知识图谱提高经纪人应对客户提问时的反馈速度和准确率;其二,搜索效果。当搜索结果少的时候,提供一些站外的房源或者是说站外的热度;其三,AI讲房。在海量VR房源数据基础上,结合AI技术,通过图像识别、结构处理等算法智能化处理三维空间信息,实现对房屋本身的理解。AI根据周边配套、小区内部情况、房屋户型结构和交易信息等维度,通过TTS(文本转语音)技术,为用户提供个性化的智能讲房服务。

  贝壳自成立以来始终以技术为驱动,以消费者为中心,致力于让房源、客户、经纪人之间的数据互联更加智能,打造产业互联网下的“新居住”品质服务生态。截至2019年9月底,贝壳找房已进驻全国103个城市和地区,连接3.2万家门店和超过32万新型经纪人,入驻平台的新经纪品牌超过226个。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

 

责任编辑:张洁 来源: 51CTO
相关推荐

2018-12-05 09:49:06

AI贝壳找房房产服务

2018-06-25 16:14:28

AI人工智能贝壳找房

2018-04-11 15:20:01

软件

2021-08-04 18:14:25

贝壳找房 DorisDB

2022-02-15 17:46:24

区块链元宇宙房地产

2018-12-05 09:58:13

贝壳租房AI

2015-07-28 09:59:23

七牛UFOP

2023-11-21 10:38:52

OPPO服务

2009-03-11 17:31:46

2024-04-07 11:48:01

系统设计微服务

2020-12-22 14:33:25

区块链行业发展物联网

2015-08-25 10:47:07

物联网制造业

2014-04-16 16:55:21

云服务监控宝华为

2022-03-07 16:35:49

区块链房地产技术

2018-04-20 10:39:34

区块链

2022-04-20 14:35:59

区块链生物技术NFT

2014-09-01 10:14:53

华为云服务

2017-03-21 16:00:13

IBM存储IBM存储
点赞
收藏

51CTO技术栈公众号