详解数据挖掘的技术、工具与用例-数据挖掘原理与应用

[[400781]]

【51CTO.com快译】近十年来，随着计算机处理能力和速度的显著提高，我们逐渐能够从繁琐且耗时的手动式数据分析，转变成为快速便捷的自动化方法。面对被收集到的数据集日趋增长，能够发现的信息相关性也日益复杂，目前各大零售商、银行、制造商、医疗保健公司，都在通过数据挖掘技术，在发现价格变化、促销策略、用户偏好、消费习惯、以及支付风险等方面，针对业务模型、收入、运营、以及客户关系产生深远的影响。不过，随着各个公司能够获取数据能力的增强，它们会碰到如何充分利用好海量的结构化与非结构化数据，促进业务增长等新问题。而这些往往需要数据科学家的协助与实现。

什么是数据挖掘?

从业务角度而言，我们将分析大数据，发现商业智能，协助公司解决现实问题，减轻风险，以及抓住新机遇的过程，统称为数据挖掘。而在计算机科学中，它是在大量数据中，发现实用的模式、及其相互关系的过程。它通常涉及到将统计学、人工智能(AI)工具、以及数据库管理相结合，通过对大型数据集予以分析，查找潜藏的异常情况，发现数据模式与相关性，将原始数据转化为实用信息，进而实现结果预测。

数据挖掘过程的基本步骤

1. 收集数据，将其加载到数据仓库中。

2. 在本地服务器或云端，存储与管理数据。

3. 业务分析师、管理团队和IT专业人员通过访问数据，以确定该如何规整数据。

4. 应用软件根据特定的需求，对数据进行排序。

5. 以图形或表格等形式，向最终用户共享或展示数据。

为了及时获取可靠的分析结果，我们通常需要通过如下六个步骤，对数据进行结构化：

1. 业务理解

全面了解当前的业务状况、项目的主要目标、以及成功的标准等方面。

2. 数据理解

确定解决问题所需的数据，并从所有可用来源收集数据。

3. 数据准备

为满足业务需求，准备适当的数据格式，防范数据出现丢失或重复等质量问题。

4. 建模

使用算法，识别出数据中的潜在模式。

5. 评估

评估给定模型所产生的效果与业务目标之间的差距。为了获得最佳结果，我们通常需要一个迭代的过程，来找到最佳算法。

6. 部署

将输出的结果提供给决策者。

数据挖掘的技术

目前，企业可以使用如下多种数据挖掘技术，来从原始数据中获取有价值的洞见：

1.模式跟踪

模式跟踪是数据挖掘的一项基本技术。它旨在通过识别和监视数据中的趋势或模式，以对业务成果形成智能推断。例如，企业可以用它来识别销售数据的发展趋势。如果发现某种产品在某些特定人群中的销售情况，要好于其他产品，那么该企业便可以据此来创建类似的产品或服务，甚至只是简单地为此类人群增加原始产品的库存。

2.数据清理和准备

作为数据挖掘过程中的一个重要环节，我们必须对原始数据进行清理和格式化，以用于各种后续的分析。具体而言，数据的清理和准备工作包含了：数据建模，转换，迁移，集成和聚合等各种元素。这是理解数据基本特征和属性，进而确定其最佳用途的必要步骤。

3.分类

基于分类的数据挖掘技术，主要涉及到分析各种类型数据之间的关联属性。一旦确定了数据类型的关键特征，企业便可以对它们进行分类。企业可以据此判定是该保护，还是该删除某些个人身份信息。

4.异常值(Outlier)检测

异常值检测可被用于识别数据集中的异常情况。企业在发现数据中异常值后，可以通过防范此类事件的发生，以顺利实现业务目标。例如，信用卡系统在某个特定时段出现使用和交易的高峰，那么企业便可以通过分析了解到，可能是由于“大促”所致，并为将来的此类活动做好资源上的事先部署与准备。

5.关联

关联是一种与统计学相关的数据挖掘技术。它旨在建立某些数据与其他数据、或数据驱动型事件的联系。它与机器学习中的“共现(co-occurrence)”概念相似，即：某个基于数据的事件的发生概率，是由另一个事件的存在性所标识的。例如，用户购买汉堡这一行为，往往会伴随着购买薯片的可能性。两者之间有着较强的关联性，却又不是绝对的伴生关系。

6.聚类

聚类是一种依靠可视化方法，来理解数据的分析技术。聚类机制使用图形或颜色，来显示数据在不同类别指标下的分布情况。通过图形式的聚类分析，用户可以直观地获悉数据随业务目标发展的趋势。

7.回归

作为一种简单的白盒技术，回归技术可被用于识别出，数据集中变量之间的因果关系、或相关性质。它在数据建模和预测等方面非常实用。

8.顺序模式

此类数据挖掘技术关注于发现和挖掘一系列顺序发生的事件，因此常被用于事务性的数据环境中。例如，它可以预测某个顾客在最初购买了某种样式的鞋后，最有可能去购买哪些相配的服装。顺序模式可以帮助企业向客户推荐并销售其他增值项产品。

9.预测

预测分析是指在当前或历史的数据中，对发现到的模式进行扩展，以便企业根据现有数据，洞察到即将发生的趋势。我们既可以使用简单的算法，又可以运用高级的机器学习和人工智能来实现预测分析。

10.决策树

作为一种特定类型的预测模型，决策树可以让企业有效地提取所需的数据。从技术上说，决策树属于一种极其简单的“白盒”类机器学习技术。而从效果上说，决策树能够使用户清楚地了解到，输入数据是如何影响结果的。当有多个决策树模型被组合在一起时，它们将创建所谓随机森林的预测分析模型。由于输入并不总能被轻易地猜测其输出结果，因此复杂的随机森林模型常被视为“黑盒”类机器学习技术。当然，在大多数情况下，相比单纯地使用决策树，集成建模的基本形式要更为准确一些。

11.神经网络

作为一种特定类型的机器学习模型，神经网络通常能够与AI、以及深度学习协同使用。由于该网络具有类似于人脑中神经元的不同功能层，因此它被誉为目前最精确的机器学习模型之一。

12.可视化

数据可视化可以在数据挖掘的过程中，为用户提供可查看到的数据视图。目前，数据可视化可用于实时数据流的传输场景中，以不同的颜色、动态地展示数据中的不同趋势和模式。企业不仅能够使用统计模型中的数值结果，还可以用基于不同指标的仪表板，来可视化地突显数据中的模式。

13.统计技术

作为数据挖掘过程的核心，统计技术基于统计的概念，利用不同的分析模型，产生适用于特定业务目标的数值。例如，神经网络可以使用基于不同权重和度量的复杂统计信息，来确定被输入到图像识别系统中的图片上，到底是狗、还是猫。

14.长时记忆处理(Long-term Memory Processing)

长时记忆处理是指能够长时间分析数据的能力。那些存储在数据仓库中的历史数据可被用于此目的。企业需要通过长时分析，来识别出原本难以检测到的模式。例如，通过分析过去几年的人员流失情况，企业可以找到可能导致账务恶化的蛛丝马迹。

15.数据仓库

从传统上说，数据仓库是将结构化的数据，存储在关系型数据库管理系统中，以便对其进行商业智能化分析、报告，并提供基本的仪表板显示。目前，业界有基于云端的数据仓库、以及半结构化和非结构化的数据仓库(如Hadoop)。过去，数据仓库主要处理的是历史数据。如今，它也能够利用各种现代化技术与方法，实时地提供对于数据的深入分析。

16.机器学习与人工智能

诸如深度学习之类的高级机器学习形式，在处理大规模的数据时，可以提供较高准确性的预测。因此，它们可以被用在实施AI过程中的数据处理，其中包括：计算机视觉、语音识别、以及使用自然语言处理的复杂文本分析等。此类数据挖掘技术有助于识别半结构化和非结构化的数据价值。

数据挖掘的重要性

筛选并滤除数据中各种混杂与重复性“噪声”。
识别相关数据，并用其评估可能出现的结果。
加快企业做出明智决策的过程。

数据挖掘的优势

可协助企业获取基于知识(knowledge-based)的信息。
可以被部署并实施在新的或既有的平台上。
可协助企业在生产和运营中按需进行调整。
促进趋势和行为的自动化预测，以及隐藏模式的自动发现。
相比其他统计数据类型的应用，更加经济高效。
有助于改进决策的过程。
作为一个快速的过程，可以让用户轻松地在更少的时间内分析大量数据。

十种数据挖掘工具

由于数据挖掘过程是在数据被获取后立即执行的，因此找到那些能够针对不同数据结构进行分类、分析与挖掘的工具，是至关重要的。下面，让我们来讨论十种业界常用的挖掘工具。

1. Oracle Data Mining

Oracle Data Mining(也称为ODM)是Oracle高级分析数据库(Advanced Analytics Database)的一个模块。该数据挖掘工具既能够方便数据分析师生成详细的数据见解，并做出预测;又可以协助识别到交叉销售(Cross-sells)的机会，开发出用户画像(profiles)，并最终预测用户的行为。

2. Rapid Miner

由Java语言编写的Rapid Miner，是目前最好的预测分析系统之一。它能够为深度学习、文本挖掘、机器学习和预测分析，提供一套集成化的环境。其系列产品可以被用来构建全新的数据挖掘过程，以及执行预测性的设置分析。

3. Orange Data Mining

作为可用于机器学习和数据挖掘的完美软件套件，Orange Data Mining通过基于组件的方式，来协助实现数据的可视化。它的组件常被称为“widgets”，其中包括各种预处理、数据可视化、算法评估、以及预测建模等部件。它们可以协助实现：显示数据表，选择不同的功能，读取数据，训练预测变量，比较学习算法，以及可视化数据元素等服务。

4. Weka

由Java语言编写的Weka，通过提供GUI，以方便用户轻松地访问其所有功能。开发者可以在其图形化的界面中执行诸如：预处理、分类、回归、聚类、以及可视化等各种数据挖掘任务。而作为一款开源的机器学习软件，Weka为各种任务内置并提供了大量可用于数据挖掘的机器学习算法。因此，您无需编写任何代码，即可快速地验证自己的数据猜测，并部署出相应的模型。

5. KNIME

基于模块化数据管道的KNIME，是由KNIME AG开发的最佳数据分析与报告的集成化平台。它不但免费开源，而且带有各种机器学习与数据挖掘的相关组件。其直观的界面，可方便用户创建从建模到生产环境的端到端式数据科学工作流。作为一个通用的可扩展平台，KNIME带有强大的扩展和集成功能，能够通过各种高级算法，来处理复杂的数据类型。由于KNIME的不同预构建组件，可以在无需输入任何代码的情况下，实现快速建模。因此，数据科学家可以用它来创建诸如：金融行业常用的信用评分系统等，以实现业务智能与分析的应用与服务。

6. Sisense

作为一款非常实用的业务智能(BI)软件，Sisense能够根据不同企业的报告目的，开展数据处理与挖掘，并能够对大型或分散的数据集，采用仪表板的形式，予以分析和可视化。它可以将各种来源的数据通过组合，构建出公共存储库，进而生成完善且丰富的数据报告，以供各个部门享用。Sisense通过提供具有拖放功能的小部件，以方便非技术类型的用户设计出饼图、折线图、以及条状图。用户只需单击，便可查看到详细信息和数据全貌。

7. Dundas

作为一款出色的仪表板、报告和数据分析类工具，Dundas可以通过快速的集成方式，提供美观的表格、图表和图形，不受限制的数据转换模式，以及可靠的洞见。Dundas BI能够以特定的方式，将数据放入已定义明确的结构中，以简化用户的后续处理。同时，它通过各种关系型方法，方便用户构建多维的分析，并关注那些业务关键性(business-critical)的事项。此外，由它生成的报告，可以在降低成本的同时，消除对于其他附加软件的依赖。

8. Intetsoft

作为一种分析仪表板和报告类工具，Intetsoft可以提供针对数据报告与视图的迭代式开发，并生成像素级的完美报告。它能够快速、灵活地转换各种数据来源。

9. Qlik

作为一种数据挖掘和可视化工具，Qlik既能够提供仪表板，又能够支持多种数据源和文件类型。此外，它的丰富功能还包括：通过拖放界面可实现灵活的交互式数据可视化，即时响应各种交互和更改，支持多种数据源与文件类型，可轻松、安全地保护各种设备上的数据和内容，允许以集中式共享应用与分析的故事线。

10. MonkeyLearn

作为一个专门研究文本挖掘的机器学习平台，MonkeyLearn通过友好的用户界面，实现了与其他工具的轻松集成，并通过对数据的实时挖掘，基于预训练的文本挖掘模型，开展目标情感分析，或通过构建定制化的解决方案，以满足更为具体的业务需求。从检测主题、情感和意图，到提取关键字和命名实体，MonkeyLearn能够支持各种数据挖掘任务。此外，MonkeyLearn的文本挖掘功能还可以被用于，在客户支持的场景中，自动进行任务单的标记与路由，自动检测社交媒体中的负面反馈，以及提供细粒度的洞见，进而做出更好的决策。

数据挖掘的典型用例

下面，我们通过各个行业中的典型用例，来讨论数据挖掘是如何改变业务策略设计，以及预测业务走向的。

市场

数据挖掘可用于检索与日俱增的数据库，并改善当前的市场细分。通过分析诸如客户年龄、性别、口味等参数之间的关系，我们可以预测其行为，以推出个性化的用户忠诚度计划。而在市场营销活动中，数据挖掘还可以预测哪些用户可能会取消已订阅的服务，获悉他们的搜索偏好，进而为实现更高的转化率，而定制邮件内容与列表。

银行业

为了更好地获悉市场上存在的风险，银行业可以将数据挖掘应用到信用等级、以及智能反欺诈系统中，以分析卡密交易、购买模式、以及客户财务数据等方面。通过对银行APP的数据挖掘，它们还可以更深入地了解用户的在线习惯和偏好信息，研究销售渠道的绩效，以及合规管理的义务，进而提高其营销活动的回报。

教育

教育工作者能够在访问学生数据的基础上，通过数据挖掘，来预测他们的知识掌握水平，并针对某些成绩较差的学生，提供额外的补习与关注。

电子商务

诸如亚马逊之类的知名电商平台，通过使用数据挖掘技术，不但可以实现推荐销售(Up-sells)和交叉销售，还能够吸引更多的顾客访问其平台。

零售

超市既可以使用联合采购的模式(joint purchasing pattern)，来识别各个产品之间的关联，进而决定如何将它们放置在过道和货架上;又可以通过数据挖掘，在结账队列中检测出，哪些商品最受客户的喜爱，以便提高进货量。

服务供应商

手机和公用事业等服务提供商可以使用数据挖掘技术，来分析账单的详细信息，与客户服务的互动，并根据投诉的历史记录，为每个客户分配一个概率分值，以便提供定制化的激励计划，或者判断其流失的可能性。

医药业

通过数据挖掘，医院和医生可以掌握患者的全面信息(包括病历、体检报告和治疗模式等)，并据此制定出更加准确且有效的诊疗方案。通过识别风险，预测人群中的疾病传播、以及预测住院时间，他们还可以更具成本效益地管理公共卫生资源。而医疗机构则能够通过数据挖掘的优势，及时发现各种欺诈和违规行为，加强与患者之间的联系，进而更好地满足他们的需求。

保险

保险公司可以通过数据挖掘，来根据盈利目的对其产品进行综合定价，进而推广给新、老客户。

制造业

借助数据挖掘，制造商可以预测其生产资源的损耗速度，并能通过预防性的维护，最大程度地减少停机时间。

犯罪调查

通过数据挖掘与分析，治安机构可以预测犯罪多发的地点与时段，提前部署警力。

电视和广播

凭借着针对网络应用和实时数据的挖掘，在线电视(如IPTV)和广播可以实时收集和分析来自不同频道与节目的观看与收听信息，实时了解观众与听众的兴趣爱好，在更好地了解其习惯与行为的基础上，更准确地定位潜在客户，并实现个性化的推送。

不同行业使用数据挖掘的成功案例：

拜耳帮助农民实现可持续的粮食生产

在农业耕种过程中，那些破坏农作物的杂草一直是困扰农民的难题。虽然农民们可以使用窄谱除草剂，在尽可能减少不良副作用的前提下，有效地杀死田间的杂草。但是，他们首先需要准确地识别出田间杂草的类型。拜耳数字农业使用Talend实时大数据，开发出了WEEDSCOUT应用。在农民们完成了免费下载与安装后，该APP使用机器学习和人工智能的方式，将拜耳数据库中的杂草图片，与农民拍摄到的杂草照片进行匹配，以便为他们的选种，作物保护产品，以及收割时机等环节，给出更加准确地预测与建议。

法航荷航满足客户旅行的偏好要求

该航空公司使用数据挖掘技术，通过将旅行搜索、预订、以及航班运营中的数据，与互联网、社交媒体、呼叫中心、以及候机厅的互动相整合，进而创建了360度的客户视图。它们凭借着这种深刻的客户洞察力，创建了个性化的旅行体验。

Groupon协调营销活动

每天，Groupon都需要实时处理超过TB量级的原始数据，并将此类信息存储在各种数据库系统之中。而数据挖掘技术使得Groupon能够实时地分析海量的客户数据，将营销活动与客户的偏好更加紧密地结合起来，并协助公司识别出业务发展的趋势。

达美乐打造完美的购买体验

作为世界上最大的比萨公司，达美乐通过各种渠道(包括：短信、社交媒体、以及Amazon Echo)收集着85,000个结构化和非结构化的数据源，其中包括全球销售点系统和26个供应链中心。这种洞察能力在提高其业务绩效的同时，在各个销售点之间实现一对一的客户购买体验。

总的说来，您可以根据自己的实际需求，使用数据挖掘技术，来解决诸如：增加营收，了解客户群的特征和偏好，获取新的客户，改善交叉销售和推荐销售，留存客户并提高忠诚度，通过营销活动来增加投资回报率，检测与发现欺诈行为，识别信贷风险，监控运营绩效等业务问题与需求。

原文标题：Data Mining: Use Cases, Benefits, and Tools，作者：Ekaterina Novoseltseva

【51CTO译稿，合作站点转载请注明原文译者和出处为51CTO.com】