CTO训练营胡伟:百度大数据布局旅游、金融、医疗领域

原创
新闻
百度研究院大数据实验室数据科学家胡伟在由51CTO高招主办的“CTO训练营第四课百度技术专场”做了主题为“百度大数据在旅游、金融及医疗领域的应用”的分享。从技术角度深入地剖析了百度大数据在当今三大热门领域:旅游、金融、医疗的应用。

百度研究院大数据实验室数据科学家胡伟在由51CTO高招主办的“CTO训练营第四课百度技术专场”做了主题为“百度大数据在旅游、金融及医疗领域的应用”的分享。从技术角度深入地剖析了百度大数据在当今三大热门领域:旅游、金融、医疗的应用。

【讲师简介】

 

胡伟 百度研究院大数据实验室数据科学家

百度研究院大数据实验室数据科学家,分别于2005年和2011年获西安交通大学学士及博士学位,2009年至2011年在麻省理工学院认知科学实验室任访问学生。加入百度前,曾在微软亚洲互联网工程院从事搜索广告和机器翻译相关研发,拥有多年大规模机器学习和数据分析经验,研究兴趣包括自然语言处理,计算广告学,深度学习等。

百度作为全球***的中文搜索引擎,沉淀了其他传统数据平台无可比拟的海量数据。基于大数据分析技术,百度开放了大数据引擎,与政府、医疗、金融等传统机构率先展开合作,并逐渐向各个行业渗透、扩展。胡伟老师本次的演讲涵盖了百度大数据技术在旅游、金融及医疗领域的探索,以及深度学习技术在大数据分析中的应用。

百度大数据在旅游领域的应用

应用实例

2014年9月份某旅游景点出现游客爆满滞留,带来了很大的安全隐患,旅游人流量预测问题再一次引起了全民的关注。

旅游人流量预测一向是旅游行业的重大课题,尤其是对旅游管理机构以及目的地企业而言,对未来做到“心中有数”,无论对旅游行业宏观把握和调控,还是对目的地营销活动的引导,以及对旅游人流流向和流量的调整,都具有很大的现实意义。百度大数据对此问题有专业的工具来解决。

通过百度关键词搜索日志可以发现,事发前一个周末,这个景区有非常高的搜索量,并且搜索的用户都是周围的居民,这说明,这些用户去的可能性极大,进而可以预测到未来的一两个周末,这个景区的人流量会很大。这就是基于时间和空间的一个简单预测。

技术要点

百度大数据来源主要有两个方面:一是网民的广义搜索行为;二是百度的LBS数据,这些数据基本涵盖了游客旅游活动中和外界的信息交互行为,同时旅游业的信息密集、产品固定、移动消费等特点,无疑很大程度上契合了百度大数据的特点。

 

图1:时间序列预测的基本方法

除了季节性,天气、是否节假日等因素也影响着人流量,所有这些特征融合在一起就可以做出一个比较准确的预测。如下图所示。

 

图2:景区客流量预测

蓝线代表搜索日志量,包含用户搜门票、路线等信息,红线代表实际旅游人数。这是一个传统的模型,即用***个时间点预测第二个时间点,依此类推。

基本模型如ARMA,ETS等过于简化,使用范围有限,并且,由于时间序列的特殊性质,标准的机器学习模型难以直接应用。这就要求有更先进的模型来进行更精准的预测。即:动态空间模型State Space Model (SSM)。

 

 

图3:状态空间模型

简单地说,y是观测的人数,当我们要预测y时,影响y的有很多因素,即内部状态,如天气因素、搜索因素、GPS定位的人数等,此模型可以把这些因素都隐含进去,然后通过动态的方式来预测每个时间点上的人数。这里的时间序列,是一个动态的模型。

目前,百度已经有了成熟的产品上线:trends.baidu.com

 

图4:旅游预测与状态空间模型

百度大数据在金融领域的应用

首先,胡伟老师明确了一点:我们做的不是风控方面,而是投资方面。百度大数据在金融领域的应用主要基于两种形式:用户数据分析和高斯图模型关联挖掘。

用户数据分析

用户关注某个事物或者心里想什么,会在互联网上留下一些信息,比如搜索某个公司、新闻信息,或者直接搜索某支股票,这些都可以或多或少的反映出他的投资倾向。

 

图5:用户数据分析

这张图显示了一个很有意思的现象:哪个公司的搜索率高,往往这只股票就会跌。这是什么原因呢?用户其实不会平白无故的搜索一只股票,或者说每个公司的搜索量应该差不多,但是当出现一些负面新闻时,比如破产或者法人出现什么问题,就会有很多人搜索。这一搜索,其实已经相当于一个预警,这个公司的股价有可能会受到负面消息的影响。

金融工程中的数据分析多基于小数据(高频交易除外),模型评价主要以回测模拟实现,无法直接应用机器学习算法。百度金融大数据基于Query的等权重指数,可以很清晰地显示出这些变化特征。

高斯图模型关联挖掘

 

图6:高斯图模型关联挖掘

高斯图模型(Gaussian Graphical Model)

 

其中,S为样本协方差矩阵,X为所求的偏相关系数。基于高斯图模型挖掘出的股票联动图如图6所示。

具体来说,各个股票之间会有一种内在关联信息,比如说行业中上下游的关系,钢材、石油、化工这些都会有一定的关联。这种关系有的比较直观,有一些比较滞后,百度通过数据挖掘的方式找出了这种规律,进而对整个金融市场做了一个全新的版图。

百度大数据在医疗领域的应用

现状

艾瑞咨询2015的调查结果显示:有89%的用户生病***反应是进行互联网咨询,百度疾病、症状类的检索量是平均每天4亿。

医疗资源比较匮乏,挂号排队等是当今医疗行业的现状,百度内部很早就开始关注如何用新的技术手段改进这一现状,百度采用的方法是机器学习。

深度机器学习

传统的数据挖掘时一般用文本分类,即情感分析:当客户用一段话描述一个症状时,会被打上标签,根据这些标签,建议用户去哪些医院或者科室检查。这种传统方法的缺点主要有两个:一是BoW丢失了词序等重要信息,二是无法对复杂的非线性关系建模。Word Embedding的缺点是运算量大,embedding过程损失原始文本信息。

百度采用的是基于稀疏特征的CNN,具体来说,就是让机器自己找出数据内在规律,不对其做人工设置。并且,采用GPU加速,比CPU快了10倍以上。

 

图7:基于稀疏特征的CNN

通过搜索流量来获得用户疾病数据,通过人工智能有效地挖掘相关数据,百度的疾病诊断和科室诊断都达到了很高的准确率。

***,胡伟老师例举了一些上线产品:百度健康PC端、百度健康移动端、百度医疗助手DuNurse。

结语:

百度大数据建立在搜索的基础上,拥有庞大的用户群和很强的用户黏性,使用人工智能挖掘技术对数据深入剖析,把智能硬件资源整合,这些优势都驱动着百度一步步向各个行业渗透。

 

责任编辑:赵立京 来源: 51CTO
相关推荐

2016-05-14 20:54:34

CTO训练营大数据百度开放云

2016-05-25 15:45:01

百度CTO大数据

2016-05-24 10:50:49

2016-08-05 20:21:51

CTO导师技术

2016-08-05 18:53:25

CTO导师技术

2016-08-30 18:14:43

管理51CTO技术

2013-11-22 15:17:44

百度轻应用开发者

2016-01-05 13:44:39

2016-10-17 13:50:31

2014-04-03 11:28:35

BEA3.0轻应用

2016-04-27 10:42:44

宜人贷CTO段念

2016-10-21 15:38:46

百度云

2016-09-13 19:21:07

CTO管理技术

2016-07-05 18:15:37

池建强ctocto训练营

2016-06-02 14:29:27

CTO训练营创业公司

2016-12-05 20:20:15

CTO训练营公开课

2016-09-26 11:17:30

CTO创业技术

2016-08-04 13:41:27

CTO训练营,技术管理

2020-08-25 11:35:28

百度NLP人工智能

2016-02-29 14:48:38

51CTO高招
点赞
收藏

51CTO技术栈公众号