一、机器学习的定义
机器学习(Machine Learning)是计算机科学的子领域,也是人工智能的一个分支和实现方式。机器学习所关注的是计算机程序如何随着经验积累自动提高性能。机器学习的形式化描述: 对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么就称这个计算机程序在从经验E学习。
机器学习主要的理论基础涉及到概率论、数理统计、数值逼近、最优化理论、计算复 杂理论等,核心要素是数据、算法和模型。
二、机器学习的发展
机器学习的发展分为知识推理期、知识工程期、浅层学习和深度学习几个阶段。在机器学习的发展过程中,随着人们对智能的理解和现实问题的解决方法演变,大致出现了符号主义、贝叶斯、联结主义、进化主义、行为类推主义五大流派。
三、机器学习的演化
四、机器学习、人工智能和数据挖掘
机器学习是人工智能的一个分支,它是实现人工智能的一个核心技术,即以机器学习为手段解决人工智能中的问题。机器学习是通过一些让计算机可以自动“学习”的算法并从数据中分析获得规律,然后利用规律对新样本进行预测。
数据挖掘是从大量的业务数据中挖掘隐藏、有用的、正确的知识促进决策的执行。数据挖掘的很多算法都来自于机器学习,并在实际应用中进行优化。机器学习最近几年也逐渐跳出实验室, 解决从实际的数据中学习模式,解决实际问题。数据挖掘和机器学习的交集越来越大。
五、机器学习典型应用领域
- 艺术创作
- 金融领域
- 医疗领域
- 自然语言处理
- 网络安全
- 工业领域
- 娱乐行业
六、机器学习应用
- 人机大战
AlphaGo是深度卷积神经网络CNN、加强 学习RL、蒙特卡洛树搜索MCTS三者相结合的产物
- 趋势预测
Google流感趋势预测
- 社保欺诈
反垃圾邮件系统
- 个性化推荐
七、机器学习流程
- 机器学习是一门入门容易但精通难的学科
- 机器学习分析人员需要掌握行业知识以了解业务流程、理解数据背后的隐含信息以合理解读数据、从变化的角度和时间维度把握需求以确定使用哪些数据,这是数据分析的基础
- 机器学习的主要流程是明确分析目标、数据收集、数据预处理、建模分析、结果评估、部署使用以及学习更新。
八、机器学习怎么做
- 明确数据分析目标:明确数据分析目标是机器学习首要的重要步骤,这个步骤需 要与用户进行充分的沟通。
- 数据收集:充足、全面的高质量数据是机器学习的基础。
- 数据预处理:数据清理,为保证数据的质量,必要的数据治理是需要的。
- 数据建模:算法本身没有绝对的好坏,不同的机器学习算法都有各自的使用范围。选择合适的建模方法或算法,算法的好坏需要实验比较确定。此阶段是机器学习的核心部分,使用精巧复杂的分析方法从 数据中提取知识,包括选择建模技术、生成测试设计以及构 建和评估模型。算法调优(包括参数或结构等方面),机器学习算法是科学,应用是艺术。
- 效果评估:选定模型之后,就可以评估机器学习结果在多大程度上能够 帮助实现业务目标。此阶段的要素包括评估学习结果,以便 为机器学习的过程提供反馈。
- 部署使用 更新:有效的机器学习结果会改善客户业务决策的效果,给客户带来价值。因为业务可能发生变化,在部署过程中需要更新机器学习的模型等。机器学习不是一劳永逸的事情(递增式学习)。
九、机器学习常用算法
- 监督学习:支持向量机SVM、决策树、朴素贝叶斯分类、k-近邻算法KNN
- 非监督学习:主成分分析、奇异值分解、K-均值聚类
- 强化学习:Q-learning
- 聚类算法
- 分类算法
- 回归分析
- 关联分析
十、数据挖掘常用算法
十二、数据分析常见陷阱
1、错误理解相关关系
- 事物间的相关性并不意味着存在因果关系,或者有可能其因果关系颠倒了
- 需要深入理解业务,规避大部分错误
- 需要分析是否由第三方变量同时引起两种变量的变化,找出其原因
2、错误的比较对象
- 机器学习中的结果或效果进行比较时,容易将不同样本集进行结果比较,比较对象不合理,其结果自然无效,结论便不能成立
3、数据抽样
- 数据抽样时如果出现偏差可能会影响分析结果
- 需要考虑采样标准
4、忽略或关注极值
- 忽视极值可能失去某类样本或丢失某项重要特征
- 过于关注极值可能会对结果造成偏差,影响结论
5、相信巧合数据
- 实验中多次重复实验可避免巧合数据的出现
6、数据未做归一化
- 两个数据进行比较时,容易进行总数比较,而忽视比例的比较
7、忽视第三方数据
- 搜集或使用爬虫获得更多数据使数据源更丰富
8、过度关心统计指标
- 可能会忽视某些方法或结论成立的前提条件
- 十二、机器学习方法的选择
- 理解目标要求是机器学习方法选择的关键,首先要 对问题进行分类,如果数据集中有标签则可进行监 督式学习,反之可应用无监督学习
- 熟悉各类机器学习方法的特性是分析方法选择的基 础,不仅需要了解如何使用各类分析算法,还要了解其实现的原理
- 在选择模型前,要对数据进行探索性分析
- 机器学习方法选择过程中可在几个可能模型中分析选出较优的模型
- 选择模型后,比较不同模型的拟合程度,反复调整参数使模型结果趋于稳定
十三、机器学习项目团队的组建
- 职能岗位
- 项目经理
- 业务专家
- 机器学习工程师
- 数据建模人员
- 可视化人员
- 评估人员
- 其他
十四、机器学习人才培养的难题
- 数理要求高
- 学习成本高
- 跨学科综合能力
- 实践机会少
十五、机器学习技能要求
十六、常见的机器学习平台
- Python
- R
- TensorFlow
- Caffe
- 开源社区Github