什么是数据挖掘?大家知道吗?与数据分析有什么联系吗?又或者说数据挖掘与数据分析有什么区别呢?让我们带着这些问题,一起往下解惑吧。
什么是数据挖掘
01、数据的产生
很多时候,我们在浏览网站或者app时会给推荐一些相关的信息,这其实就是根据我们的互联网行为来进行预测的。前端获取到用户的行为数据,传输到后端,然后存储到服务器上,具体行为如下:
浏览网页时或者app时,用户的点击和停留行为都会被服务器所记录,终存储到数据库上;
浏览购物app时,用户的订单、添加购物车、收藏、关注等行为;
浏览快手,抖音等洗脑app时,用户的关注、停留、评论、点赞、转发等行为都会被记录在服务器上。
02、数据预处理
预处理就是提前处理一下,当把数据从源中读取出来之后,会发现有些数据不符合我们的要求,比如有缺失值或者异常值(年龄为0),我们的处理可能是删除,也可能是填充,我们把这些脏数据整理成干净的数据。除此之外,我们可能还需要进行数据的变换,把原始数据转化成符合模型要求的数据。
03、数据建模
数据清洗完了之后,进行可视化展示,然后我们使用一条线去拟合这些点,这条线就是一个函数,有了这个函数我们就可以进行预测,这个函数就是一个模型,这就是数据建模的过程。
数据挖掘与数据分析有什么区别
数据分析更多采用统计学的知识,对源数据进行描述性和探索性分析,从结果中发现价值信息来评估和修正现状。而数据挖掘不仅仅用到统计学的知识,还要用到机器学习的知识,这里会涉及到模型的概念。数据挖掘具有更深的层次,来发现未知的规律和价值。
从侧重点上来说,相比较而言,数据分析更多依赖于业务知识,数据挖掘更多侧重于技术的实现,对于业务的要求稍微有所降低。
从数据量上来说,数据挖掘往往需要更大数据量,而数据量越大,对于技术的要求也就越高。
从技术上来说,数据挖掘对于技术的要求更高,需要比较强的编程能力,数学能力和机器学习的能力。
从结果上来说,数据分析更多侧重的是结果的呈现,需要结合业务知识来进行解读。而数据挖掘的结果是一个模型,通过这个模型来分析整个数据的规律,一次来实现对于未来的预测,比如判断用户的特点,用户适合什么样的营销活动。显然,数据挖掘比数据分析要更深一个层次。
综上,大数据是互联网上海量的数据挖掘,而数据挖掘更多的是针对企业内部的小数据挖掘,数据分析是进行有针对性的分析和诊断。大数据需要分析的是趋势和发展趋势,而数据挖掘主要是发现问题和诊断。