机器学习简介-51CTO.COM

一、机器学习的定义

机器学习(Machine Learning)是计算机科学的子领域，也是人工智能的一个分支和实现方式。机器学习所关注的是计算机程序如何随着经验积累自动提高性能。机器学习的形式化描述: 对于某类任务T和性能度量P，如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善，那么就称这个计算机程序在从经验E学习。
机器学习主要的理论基础涉及到概率论、数理统计、数值逼近、最优化理论、计算复杂理论等，核心要素是数据、算法和模型。

二、机器学习的发展

机器学习的发展分为知识推理期、知识工程期、浅层学习和深度学习几个阶段。在机器学习的发展过程中，随着人们对智能的理解和现实问题的解决方法演变，大致出现了符号主义、贝叶斯、联结主义、进化主义、行为类推主义五大流派。

三、机器学习的演化

四、机器学习、人工智能和数据挖掘

机器学习是人工智能的一个分支，它是实现人工智能的一个核心技术，即以机器学习为手段解决人工智能中的问题。机器学习是通过一些让计算机可以自动“学习”的算法并从数据中分析获得规律，然后利用规律对新样本进行预测。

数据挖掘是从大量的业务数据中挖掘隐藏、有用的、正确的知识促进决策的执行。数据挖掘的很多算法都来自于机器学习，并在实际应用中进行优化。机器学习最近几年也逐渐跳出实验室，解决从实际的数据中学习模式，解决实际问题。数据挖掘和机器学习的交集越来越大。

五、机器学习典型应用领域

艺术创作
金融领域
医疗领域
自然语言处理
网络安全
工业领域
娱乐行业

六、机器学习应用

人机大战

AlphaGo是深度卷积神经网络CNN、加强学习RL、蒙特卡洛树搜索MCTS三者相结合的产物

趋势预测

Google流感趋势预测 

社保欺诈

反垃圾邮件系统

个性化推荐

七、机器学习流程

机器学习是一门入门容易但精通难的学科
机器学习分析人员需要掌握行业知识以了解业务流程、理解数据背后的隐含信息以合理解读数据、从变化的角度和时间维度把握需求以确定使用哪些数据，这是数据分析的基础
机器学习的主要流程是明确分析目标、数据收集、数据预处理、建模分析、结果评估、部署使用以及学习更新。

八、机器学习怎么做

明确数据分析目标：明确数据分析目标是机器学习首要的重要步骤，这个步骤需要与用户进行充分的沟通。
数据收集：充足、全面的高质量数据是机器学习的基础。
数据预处理：数据清理，为保证数据的质量，必要的数据治理是需要的。
数据建模：算法本身没有绝对的好坏，不同的机器学习算法都有各自的使用范围。选择合适的建模方法或算法，算法的好坏需要实验比较确定。此阶段是机器学习的核心部分，使用精巧复杂的分析方法从数据中提取知识，包括选择建模技术、生成测试设计以及构建和评估模型。算法调优(包括参数或结构等方面)，机器学习算法是科学，应用是艺术。
效果评估：选定模型之后，就可以评估机器学习结果在多大程度上能够帮助实现业务目标。此阶段的要素包括评估学习结果，以便为机器学习的过程提供反馈。
部署使用更新：有效的机器学习结果会改善客户业务决策的效果，给客户带来价值。因为业务可能发生变化，在部署过程中需要更新机器学习的模型等。机器学习不是一劳永逸的事情(递增式学习)。

九、机器学习常用算法

监督学习：支持向量机SVM、决策树、朴素贝叶斯分类、k-近邻算法KNN
非监督学习：主成分分析、奇异值分解、K-均值聚类
强化学习：Q-learning
聚类算法
分类算法
回归分析
关联分析

十、数据挖掘常用算法

推荐算法
社会网络分析-文本分析
十一、机器学习常见问题
数据质量问题与预处理
数据量较少
数据量过多
维度灾难
数据不完整
异常数据

十二、数据分析常见陷阱

1、错误理解相关关系

事物间的相关性并不意味着存在因果关系，或者有可能其因果关系颠倒了
需要深入理解业务，规避大部分错误
需要分析是否由第三方变量同时引起两种变量的变化，找出其原因

2、错误的比较对象

机器学习中的结果或效果进行比较时，容易将不同样本集进行结果比较，比较对象不合理，其结果自然无效，结论便不能成立

3、数据抽样

数据抽样时如果出现偏差可能会影响分析结果
需要考虑采样标准

4、忽略或关注极值

忽视极值可能失去某类样本或丢失某项重要特征
过于关注极值可能会对结果造成偏差，影响结论

5、相信巧合数据

实验中多次重复实验可避免巧合数据的出现

6、数据未做归一化

两个数据进行比较时，容易进行总数比较，而忽视比例的比较

7、忽视第三方数据

搜集或使用爬虫获得更多数据使数据源更丰富

8、过度关心统计指标

可能会忽视某些方法或结论成立的前提条件
十二、机器学习方法的选择
理解目标要求是机器学习方法选择的关键，首先要对问题进行分类，如果数据集中有标签则可进行监督式学习，反之可应用无监督学习
熟悉各类机器学习方法的特性是分析方法选择的基础，不仅需要了解如何使用各类分析算法，还要了解其实现的原理
在选择模型前，要对数据进行探索性分析
机器学习方法选择过程中可在几个可能模型中分析选出较优的模型
选择模型后，比较不同模型的拟合程度，反复调整参数使模型结果趋于稳定

十三、机器学习项目团队的组建

职能岗位
项目经理
业务专家
机器学习工程师
数据建模人员
可视化人员
评估人员
其他

十四、机器学习人才培养的难题

数理要求高
学习成本高
跨学科综合能力
实践机会少

十五、机器学习技能要求

十六、常见的机器学习平台

Python
R
TensorFlow
Caffe
开源社区Github