大家好,我是华为Universe平台的潘庆宝。下面由我来给大家讲解一下华为Universe大数据平台以及我们的开发案例。这是我要演讲的内容:***是Universe大数据平台;第二是案例讲解;***是我们的合作案例。
首先介绍一下华为Universe大数据平台的整体架构。最下面是基础设施部分,我们Universe平台可以运行在很多主流Hadoop平台之上。我们有四个统一和一个洞察。四个统一是:统一分析运行平台、统一运行开放平台,统一运行开发平台,统一治理数据平台;一个洞察是我们的客户洞察,上面是我们的分析应用,主要包含营销管理系统。这是华为Universe平台的整体架构,大家可以对我们平台有一个了解。
下面介绍一下我们的主要技术组件,让大家对我们的平台功能有进一步的了解。我们的平台技术组件主要有这么多,给大家简要介绍一下。
***个是BDI,数据集成,用于批量数据采集处理和统一调度。第二是数据挖掘,提供分布式数据挖掘以及常用挖掘算法。第三是流式处理,实时数据采集处理和实时分析。第四是客户知识管理,包括客户画像、客户群、属性和标签。第五是知识库、知识发现,互联网数据爬虫和客户上网行为标注。第六是营销管理,提供一站式营销管理,实时营销、精准营销都可以配置。第七是统一门户,也就是Universe的访问入口。第八是策略中心,提供实时决策。第九是数据资产管理。第十是ISA多维报表分析,后面的AS是面向业务人员的自助分析。我们基本上涵盖了主要的功能。
什么是客户洞察?主要分两个组件,***个是Corpus,第二个是Persona。Corpus是知识库,Persona是客户管理系统,包括客户画像和客户标签,创建和订阅客户标签、查询客户画像,快速分析客户特征,通过客户画像可以更好的了解客户全貌,洞察客户需求。下面这个图,就是我们抽象的客户画像以及系统展示的过程。我们有一个位置和互联网数据客户,随着标签越来越细致,就形成了人物画像。有了位置和客户画像,我们就可以做我们的案例了。举个例子,中间的这个王小小的标签是非常丰富的,基本上把整个人物画像已经刻画好了,她是高工资,单身,喜欢逛国贸商圈,这都是她的标签,这么多标签组合在一起就可以完整客户的画像,可以分析客户的全貌,洞察他的需求。这个数据可以提供给上层业务做分析使用。
实时客户画像之后肯定有实时数据处理,接下来介绍一下流计算处理架构。我们的流计算是这样的,实时数据通过流采集进入到我们这里面,通过加工得到时实处理结果,比如说实时决策和实时营销都需要实时数据支撑的。
下面结合我们的案例,给大家讲解一下我们系统是怎么做到的。我们的实时客户画像,以前对客户画像分析是基于历史数据的,随着对业务要求越来越高,实时性也就被提到很重要的位置。这就要求我们对实时人流进行客户画像,这是我们实时人流客户画像的整体架构。数据员是O域数据,包含互联网位置和上网数据。通过我们的实时采集进入了我们的系统。这个实时数据一方面供实时流使用,实时流经过我们的处理,就可以生成实时位置数据,也就是我们说的实时人流。另一方面,实时数据会通过数据集成、数据库和画像服务就形成了客户画像,我们可以通过Streaming的聚合汇总就可以提供实时客户画像。我们的结果输出是输出到Oracle。这是我们的整体架构。
下面介绍一下这个通过我们系统是怎么实现的。刚才说我们Universe有一个登录界面,有好多功能都可以在这里配置出来。这是我们的登录界面,输入用户名和密码就可以登录了。登录之后,我们会看到一个数据治理和实时采集的功能。因为是大数据,肯定要有数据,所以数据采集是我们的***步。我们的Universe数据实时采集已经实现了可配置无码化。我们实时采集的这些都是非常丰富的,我们实时采集的是Sdtp source,根据移动集团规范我们自主开发的实时采集系统。Sdtp规范是移动集团的统一DPI技术规范,也是统一合成接口规范,大家如果想了解也可以线下了解一下。通过我们的sdtp sourse可以把O域等等实时接进来。包括我们还有过滤等好多处理,可以同时形成卡夫卡(音)和SDVS(音)。这就是我们的数据采集,有了数据之后就可以做下一步,下一步就是客户画像了。
客户画像的***步是必须要有标签,所以我们的***步就是配置标签。配置标签肯定要有规则,比如说什么时间、什么地点、做了什么事情的人,这就是规则。我们这里有一个标签的匹配规则。这个规则是什么呢?我们有一个组合匹配规则,就是多个规则会聚在一起,我们定义的组合匹配规则就是什么时间、什么地点、用什么、做了什么事情,这就是我们的组合匹配规则。
大家可以看一下我们组合规则的配置页面,比如说15点到17点的时候,在火车站附近使用了iPad,访问了起点APP,访问起点中文网,行为是浏览,阅读的主题是穿越的小说。这里有时间、有位置、有终端,还有行为,包括做了什么事情。这就是一个组合规则,通过组合规则可以生成对应的标签,有了标签之后才能对客户进行客户画像,这是一个整体的流程。APP网站、行为是怎么来的?包括起点、美团这些怎么来的?我们通过波测得到原始数据,通过分析构建最终形成了一个知识库。
我们定义好组合规则是不是有标签了?不是,定义好规则之后,点了提交之后,后台会自动生成两个流程,一个是数据流,一个是控制流,大家可以看到。什么是数据流,什么是控制流呢?数据流就是大家现在看到的界面,点开数据流之后会生成这样一个流程。数据流是我们对哪一些数据做分析处理,处理完之后,最终放到什么地方去,比如说我对刚刚采集的数据做处理,根据我们配置的标签组合规则,处理完之后就会生成我们定义的标签,这就是我们的数据流。这个数据流什么时候执行呢?是由我们刚才说的控制流来控制。大家可以看一下我们的控制流,控制流可以设置执行时间,主要是两个时间,***个是数据什么时候执行;第二个是执行什么时候的数据。比如说我定义今天下午15点执行分析昨天的数据,在这里就可以配置。配置好之后,15点的时候就会自动执行我的数据流。当我的数据流执行完之后,我们的标签就生成了。标签生成之后就可以进行客户画像了。这是我们的客户画像界面,我们可以新建客户画像。客户画像肯定要用标签,客户画像这里可以选择多个标签。当这个人物的客户画像完成之后,就可以根据手机号去搜索,搜索了之后可以展现出这个人物的客户画像。这是我们客户画像整个的系统设计,从数据采集到客户画像标签的整体流程。
下面讲一下获得数据的数据流程。首先,我们采集到的数据是什么样的?这是我们的模拟数据,主要包含几个信息,***个是手机号,标识是唯一的一个人。第二个是经纬度,主要是标识客户的位置。第三个是互联网访问,这是构造客户画像。
我们的位置信息是怎么来的呢?大家知道我们上网的基站的工程施工表可以知道确定位置,有了位置可以确定手机号,出现在基站的是哪个人,可以确定一个位置,当然这是一个位置范围。有了位置之后,我们就能得到实时人流了,然后就有了可取画像。实时人流+客户画像,组合在一起,那就是实时人流客户画像。下面是结果输出,比如说哪个位置阅读了全程的流程,根据我们的标签配置规则,有几个人也可以统计出来。
这是我们的案例,给大家讲案例的目的是展示一下平台的能力,主要是云计算和客户画像这一部分。希望大家能够对我们的Universe平台有一个大概的了解。
接下来讲一下我们的合作案例,讲一下用我们Universe已经做了一些什么,包括已经做好的成果。这是我们与海捷科技合作的一个基于电信数据的旅游分析应用。这个界面是分析当前入岛人数。这个是利用我们Universe平台的采集和实时处理、客户画像等能力做的一个分析。大家可以看到,这个界面可以实时统计当前的入岛人数,比如说广东、上海这个时间点累计有多少人入岛。右边展示的是***0的省份,比如说广东人最多,上海第二。另外,我们还可以对入岛人的性别和年龄做实时分析,所以可以用到客户画像和数据库等内容。
下一个案例是热点地区的实时人流,这就展示了海南岛每个区域的实时人流情况。这是怎么做的呢?我们根据电信领域的实时数据,通过我们的Streaming的实时采集,再经过我们Universe的处理,然后就得到了每个区域的实时人流数据。以前一般都是对历史数据做分析,实时性是远远不够的,现在可以对实时数据做分析,从数据采集到分析完出结果,我们是秒级别的,一般30秒以内可以从实时数据到结果输出。这是海南岛每个区的实时人流,包括热门景点的具体人流数,包括这个***0。
***这个是海南岛的舆情分析,用了Universe的知识库、知识发现和互联网爬虫等功能。第二个是舆情的TOP5,包括舆情趋势。
上面介绍了Universe的功能、架构和主要能力,包括我们的案例,***也介绍了合作样例,希望大家能对Universe大数据有一个整体的理解,也欢迎大家报名参加华为Universe大数据的赛题。