一、前言
多年前应他人所邀,对其所关注的招聘行业在大数据方面的应用方向进行了简要分析:主要从技术架构与应用模式两个层面进行展开。鄙人水平有限,下文的内容纯属一家之言,如有不妥之处,请各位看官谅解。
二、背景分析
互联网目前对招聘行业的改变,是极其有限的,只是让服务场景延伸了。和前互联网时代的“人才市场”模式相比,现在招聘企业,在服务上,并没有实质性的提升,仍然是提供一个平台,然后把C端(候选人)卖给B端(用人企业)。但服务场景延伸了。
这体现在,以前只能去人才市场找工作,现在在家里找工作;以前只能在家里找工作,现在可以在公交车上用手机找工作。包括新兴的“职场社交”,其实仍然只是服务场景的改变:以前是通过中介、猎头找工作,现在跟HR、跟CEO社交,通过相处,熟悉后找工作。招聘行业如果只是延伸服务场景,却不提升服务品质,是迟早会被互联网市场淘汰的。目前也有一些招聘企业,已经开始升级对C端的服务品质,比如拉勾做的专车送入职者上班,比如强制要求用人企业发布的招聘职位薪资透明,再比如一些公司猎头给付费用户提供的一对一服务,帮他们去完善简历。
2.1 招聘行业业务痛点分析
互联网给人类***的财富就是***的前沿实时资讯,所以互联网对招聘行业服务品质的提升,最终必然也是依靠资讯的处理。
2.2 为什么要引入大数据处理技术
移动互联网时代,新业务/新商业模式不断涌现,极大的丰富了人们生活,随之带来的是各种形态业务数据的爆发式增长;新形势下的数据仓库不再局限于传统的经营决策统计分析报表,而是要改变运营方式、提供符合新业务/新商业模式的运营支撑能力;传统数据仓库技术难以满足高速增长的海量数据的处理要求,迫切需要引新的技术来提升支撑系统的能力。
观点1:大数据是一种正在进行的业务转型
大数据是互联网经济的主要支撑模式,强调以数据先行的方式孕育创新,平台技术以适应变化的方式支持业务发展。数据驱动业务是***目标。大数据概念席卷了各个领域,造成了传统经济阵营的一种恐慌。但是,这种恐慌的根源并非来自大数据,而是背后充满活力、高速发展的互联网经济。因此,我们无法仅仅借鉴大数据的细枝蔓藤,应用一两种新技术、或模仿建设某一种平台来根本上消除这种差距。从业务角度看,出路在于向数字时代的商业模式转型。
观点2:大数据同时是一种技术革新
海量数据处理、实时、智能,既关注群体规模又关注个性化,是商业模式对大数据技术发展的主要诉求。业界软硬件平台总的发展方向,可以总结为两点:更高的处理性能、以及更多的细分领域。
三、需求分析
3.1 求职端需求
针对求职端而言,亦是求职者,他们急需能够快速的找到合意的工作;求职者也需要了解自身在求职过程中的得失。求职端的信息需求主要表现为对工作机会的精确推荐需求以及有效清晰的掌控求职过程。
3.2 企业端需求
对于企业端而言,大数据驱动的招聘平台能够提供它们针对HR工作的全面解决方案。基于该解决方案不仅能够获取优秀人才而且能全面掌控人才动态,生化HR工作。
3.3 增值需求
另外结合内外部数据,招聘大数据还可实现变现,数据直接产生价值,亦即是增值服务。
四、应用思路
方向1:对内数据价值提升—构建数据分析与数据可视化平台
方向2:对外数据直接变现—构建大数据信息服务平台
对于外部合作厂商而言,基于自有大数据基础平台,可推出信用评估数据服务、人才动态监控、社会治理服务。
五、总体架构
5.1 总体原则
a、技术-按需频度的数据获取
批量和实时数据采用不同的技术手段和工具,遵循统一的文件接口标准
b、技术-多样化数据共存
跨同构/异构数据库(物理系统),基于文本、数据库的数据抽取和加载
c、数据-数据即服务
业务人员通过逻辑数据对象组件访问数据,而不用关心数据的物理存储方式。通过数据组织与前端应用功能,使业务人员可以较容易、较快地定位和了解数据的内容。
d、数据-数据质量控制
通过一系列的技术和业务手段实现数据集成平台数据质量控制,主要体现在数据正确性(技术)、完整性、一致性(业务)、有效性。
5.2 分层体系
从数据的分层结构来看,整体上可分为:数据洞察层、数据消费层、数据智慧层、数据整合层、数据计算层、数据存储层、数据收集层以及数据源层。
如上图所示,按数据价值密度的高低来划分的话,实质上可以分为数据处理层:从数据收集à数据智慧,数据应用层:数据消费à数据洞察。
5.3 总体架构
从整体上来看,招聘大数据平台的技术架构由支撑海量数据处理的存储层、支撑大数据分析的信息供应层(治理层)以及提供应用能力的信息分析层(应用层)构成。
如上图所示,与目前比较流行数据治理+数据应用的架构相当类似,在当前特别注重大数据治理体系构建的情况,改技术架构也是比较符合现实需求的。
5.4 功能结构
整个大数据应用平台的功能应该由面向技术的数据分析类功能和面向业务的专业应用组成。
数据分析类功能包括:数据查询、数据统计、数据挖掘等,专业应用包括:人才画像、人才雷达、用户服务等。
几个重点的应用方向还是人才画像、人才雷达等。
六、技术实现思路
6.1 基础平台建设
核心思路1:底层采用的关键技术——分布式、数据仓库、数据管理
核心思路2:Hadoop技术体系与MPP的集成思路——混合方式
核心思路3:如何做数据采集——分布式爬虫技术的应用
6.2 数据分层规划
规划思路1:数据按热度与价值分级存储——冷热分离/在线离线分离
规划思路2:数据按粒度或治理程度来分层存储——数仓思路
规划思路3:构建全生命周期的数据管控体系
6.3 应用思路
应用思路1:人才画像
应用思路2:构建基于人才画像的PYMK体系
应用思路3:人才推荐系统
通过大数据分析、匹配、推荐基于人才画像,让HR不再为搜索和筛选简历浪费时间,通过机器在亿级简历库中匹配合适简历,企业只需对合适简历批量发起约Ta邀请,按效果付费,有意向面试才产生收费。
应用思路4:人才测评系统
可考虑接入专·业的测评公司,包括(适职能力,销售素质,领导力,认知力),多维度评估候选人。
应用思路5:征信服务
对于职场人士来言,个人信用得分或将成为未来求职的重要考量指标之一,也是能否在职场赢得尊重、获得长足发展的重要品质。个人的信用不仅仅体现在金融、消费、生活理财等方面,也要注意,在线社交平台上的个人信息也可能对自身的信用造成影响。大数据平台与技术进入人力资源行业做个人职业征信与职业信用体系建设。
作者介绍:
杨刚,现任珠海市新德汇信息技术有限公司副总经理兼大数据研究院院长 15年IT从业经验,长期从事云和大数据的技术研发和实施工作,有深厚的电信、政务、金融等行业背景。