【51CTO.com原创稿件】2016年11月25-26日,由51CTO.com主办的WOT 2016大数据技术峰会在北京粤财JW万豪酒店隆重召开。自2012年以来,WOT品牌大会秉承“专注技术、服务技术人员”的理念已经成功举办十二届,不仅积累了大量的专家资源,更获得广大IT从业者和技术爱好者的认可和好评,已成为业界重要的技术分享及人脉拓展平台。
在WOT2016大数据技术峰会的行业应用实践专场,链家网大数据架构师赵国贤做了《地产数据的基石之大数据架构之路》的演讲,会后记者针对链家网大数据架构搭建中遇到的难题和应对方案等与他进行了详细沟通,以下是采访分享。
嘉宾介绍
赵国贤,链家网大数据架构师,负责大数据平台的基础架构方向,专注构建大数据基础平台的相关工作。2011年供职于新浪研发中心,把全网的行为数据收集方式从离线改造为实时收集,并参与了大数据平台从无到有的整个发展历程。2013年,任职搜狗数据分析平台高级工程师,建立了一套完备的数据平台用以支撑公司的数据需求。
链家网的大数据架构发展现状
链家网的数据架构发展情况是第一套系统满足日常的数据报表需求,在这个系统基础上开发的第二套系统是一个简单的BI系统,可以实现自助报表需求,现在使用的数据架构是一套完整的解决方案,即平台级服务。该平台服务分成三层,包括数据服务层、工具链层和基础服务层。通过这三层的完整架构满足集成数据需求和相关客户的数据需求。
链家网相对于其他地产公司的核心竞争优势就是数据,比如说公司从2006年开始打造的“楼盘字典”,可以描述全国七千万套房子的详细情况。链接网的大数据架构除了满足日常的业务查询需求,还会定期分享数据报告给公司管理层、用户和潜在使用者查看。而且,链家研究院会定期通过使用数据平台获取一些数据,然后通过机器学习类似的方法,能够生成一套完备的地产数据报告。
在数据的内部使用上,链家网有一套完善的数据控制方案,门店的店长和经纪人有不同的数据查看权限,但是仅限于查看所在区域的数据,无法实现跨区的数据操作。对于经纪人,他只能查询到他权限内的必要数据,即定位所在门店一定范围内相关的商圈、门店的数据,没有权限获取更多的数据。如果地产经纪人在实际操作中,涉及到跨区数据操作的情况,该怎么办呢?解决方案是该经纪人可以和其他经纪人合作,获得相关房产数据来为客户服务。每个经纪人都拥有一个完备的房产数据信息,比如谁注册了这个房子、谁进行的客户连接、谁卖了这个房子,有一整套数据平台给经纪人提供服务。他们通过这套数据平台,能满足客户快速找到最合适房子的需求。
链家网在大数据架构方面的技术支撑
为了应对业务的大幅增长和架构调整,链家网打造了一套完备的数据处理仓库系统,包括一站式数据管理系统和一站式的指标管理系统,这两个系统数据描述清晰,可以满足大部分经纪人对业务的数据需求,帮助用户快速查看数据。无论业务如何增长,内部的数据需求始终处于一个收敛状态,收敛到数据管理系统和指标管理系统上,日常通过完善数据管理和指标管理,可以满足大部分的数据需求,不会让数据平台提供的服务因为业务的增长造成人员的堆叠,还有技术方案的不满足。
在架构搭建过程中,他们遇到了哪些难点?
赵老师谈到他们遇到的架构搭建难点还是来自业务增长太快的压力,面对每天高频次的访问量,他们集群的规模相对显得较小,这样容易造成计算任务拥塞、堆叠,出现处理不及时的现象。他们的应对方式是采取资源隔离,把相关较高级别的任务放在高级别任务的队列上,把低级别的任务放到低级别的队列上,通过这种分队列的处理方式来满足业务增长的需求,实现以相对少的硬件资源满足更多的业务需求。
未来1到2年,他们如何从软硬件上满足业务的发展需求?
为了应对软件方面的挑战,链家网正在打造一个API服务,需要完成一站式元数据管理系统和指标管理系统。在硬件方面,链家网面临集群的扩容问题如何更好地跟进业务的增长速度,他们已经准备实施云混合的技术,比如使用亚马逊的云、使用阿里的云,包括链家自己的IDC,其中阿里云和亚马逊云有一个比较好的优势,就是能够非常快速的扩容。相信链家在未来会给用户带来更多惊喜!
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】