IT龙门阵172期报道：数据挖掘技术面临新挑战-51CTO.COM

【TechWeb报道】8月28日消息，今晚在盛大创新院举办了第172期IT龙门阵，会上百分点COO张韶峰、独到科技创始人张文浩、腾云天下数据挖掘总监张夏天和红麦软件创始人屈伟分享了电子商务、社交网络等方面的数据挖掘技术及数据挖掘面临的挑战。

张韶峰：搜集了1.4亿用户偏好数据

百分点科技COO张韶峰认为互联网将IT技术扩展到全人类，大数据使得以IBM、Oracle为代表的IT技术企业和以Facebook为代表的web2.0互联网应用发生联系。

他表示，互联网的兴起，使得利用用户在外网上的行为来推荐电子商务企业网上的商品成为可能。百分点就是通过“场景引擎”来计算用户的心理，“规则引擎”融合专家的建议，配以算法来给用户推荐个性化的商品。

张韶峰介绍，目前百分点云平台汇集了250多家公司，约1.4亿用户的偏好数据。百分点通过与客户分享用户行为数据，打通顾客在多个网站的行为数据，形成顾客商业行为数据平台，这样在为用户服务时，会利用这些积累的用户全网行为偏好和规律为用户推荐合适的商品。

谈到用户识别，张韶峰表示目前百分点的技术主要是通过cookie 和合作客户的用户ID来识别用户。而基于用户行为的全网推荐必须解决不同网站对同一商品的不同分类描述，百分点通过建立自己的商品分类商品类目数，通过机器学习和人工校正来对商品进行匹配。

张文浩：社交网络数据是金矿

独到科技创始人张文浩认为社交网络产生了海量用户、实时和完整的数据，同时社交网络也记录的群体的情绪，通过深入挖掘这些数据来了解群体的智慧。

他介绍了利用社交网络数据来监测天气变化，这一看似无关的两个概念。通过各个地区的“喊热”人数来进行监测，具体流程是通过界定关键词种子，如“热”、“口渴”等，在新浪微博里通过爬虫找到包含种子词的文本集合，然后结合语净抽取规则、语法规则得到相关数据。通过文本数据转换到天气相关的数据。

同时，张文浩指出，数据预测往往是事后诸葛，目前大部分数据挖掘是基于历史数据做出预测，而不是对未来的预测，他认为社交网络挖掘中机器对语言语境理解的不足，自然语言处理技术，情感分析算法的给挖掘带来挑战，此外社交网络存在的大量的水军和僵尸识别以及抽样的准确性都对挖掘的准确性产生了影响。

而对于微博的数据挖掘来说，也存在文本短，特征纬度低，文本口语化，符号多，水军多等挑战。“社交网络数据是一座金矿，但是挖掘过程充满挑战。” 张文浩说。

张夏天：流程管理平台是数据挖掘的挑战之一

腾云天下数据挖掘总监张夏天认为大数据不是新问题，50年代数据挖掘就已存在。随着计算机和互联网的出现，带来了超大数据量、超高纬度的数据，数据挖掘碰到单台计算机无法解决的超大数据量。

张夏天指出大数据对算法和计算平台的挑战增大，维数灾难更加严重，计算开销大增。

他认为数据挖掘是一个很长的流程，是实验性探索性的工作，需要不断调整算法和参数，这就需要一个好的数据挖掘流程管理平台来支持数据挖掘工作。

对于怎么去驾驭大数据挖掘，张夏天认为，从数据层面来看，可以减少数据量，化大数据为小数据，找到和挖掘出合适的数据，通过抽样的方式把数据分而治之也是解决大数据的一个不错的方式。

此外他分享数据挖掘经验认为Hadoop不是做多次迭代的好选择。用64GB单机单线程跑机器学习，比有200多个节点的Hadoop集群耗费时间更少。

屈伟：数据挖掘应用广泛

红麦软件技术有限公司创始人屈伟认为数据挖掘存在广泛应用，他分享了几种简单的数据挖掘手段。

首先是自动标签技术，即通过TF-IDF算法给文章设置关键词，区分关键词的重要程度。TF-IDF算法发现越是重要的词出现的频率越低，TF-IDF算法给没个词赋予不同的权重，来区分关键词。

自动分类技术方面，GMAIL对垃圾邮件的过滤就是基于自动分类的。具体的实现手段是对不同类型的文章进行分词，通过比较同一个词在不同类别文章中的出现次数，计算出现概率，利用贝叶斯理论来计算每一个词对类别的贡献概率，进而进行判别。而聚类分析，则可以通过计算距离的来实现对复杂特征的聚类。

在谈到社会化推荐时，他认为这个看似很复杂的功能也可以通过简单的方法来实现。比如用户已经看过10本书，推荐第11本，那么可以找出同时看过10本书的人，假如找到了50人，然后在看找到这50人都读过的书进行推荐。

在数据挖掘的应用上，他表示数据挖掘口碑分析，产品评价，竞品分析，微博潜在用户，市场效果评估，品牌影响等方面进行应用。（宁萌）