机器学习简介

人工智能 机器学习
机器学习主要的理论基础涉及到概率论、数理统计、数值逼近、最优化理论、计算复 杂理论等,核心要素是数据、算法和模型。

 

一、机器学习的定义

机器学习(Machine Learning)是计算机科学的子领域,也是人工智能的一个分支和实现方式。机器学习所关注的是计算机程序如何随着经验积累自动提高性能。机器学习的形式化描述: 对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么就称这个计算机程序在从经验E学习。
机器学习主要的理论基础涉及到概率论、数理统计、数值逼近、最优化理论、计算复 杂理论等,核心要素是数据、算法和模型。

二、机器学习的发展

机器学习的发展分为知识推理期、知识工程期、浅层学习和深度学习几个阶段。在机器学习的发展过程中,随着人们对智能的理解和现实问题的解决方法演变,大致出现了符号主义、贝叶斯、联结主义、进化主义、行为类推主义五大流派。

三、机器学习的演化

四、机器学习、人工智能和数据挖掘

机器学习是人工智能的一个分支,它是实现人工智能的一个核心技术,即以机器学习为手段解决人工智能中的问题。机器学习是通过一些让计算机可以自动“学习”的算法并从数据中分析获得规律,然后利用规律对新样本进行预测。

数据挖掘是从大量的业务数据中挖掘隐藏、有用的、正确的知识促进决策的执行。数据挖掘的很多算法都来自于机器学习,并在实际应用中进行优化。机器学习最近几年也逐渐跳出实验室, 解决从实际的数据中学习模式,解决实际问题。数据挖掘和机器学习的交集越来越大。

五、机器学习典型应用领域

  • 艺术创作
  • 金融领域
  • 医疗领域
  • 自然语言处理
  • 网络安全
  • 工业领域
  • 娱乐行业

六、机器学习应用

  • 人机大战

AlphaGo是深度卷积神经网络CNN、加强 学习RL、蒙特卡洛树搜索MCTS三者相结合的产物

  • 趋势预测

Google流感趋势预测 

  • 社保欺诈

反垃圾邮件系统

  • 个性化推荐

七、机器学习流程

  • 机器学习是一门入门容易但精通难的学科
  • 机器学习分析人员需要掌握行业知识以了解业务流程、理解数据背后的隐含信息以合理解读数据、从变化的角度和时间维度把握需求以确定使用哪些数据,这是数据分析的基础
  • 机器学习的主要流程是明确分析目标、数据收集、数据预处理、建模分析、结果评估、部署使用以及学习更新。

八、机器学习怎么做

  • 明确数据分析目标:明确数据分析目标是机器学习首要的重要步骤,这个步骤需 要与用户进行充分的沟通。
  • 数据收集:充足、全面的高质量数据是机器学习的基础。
  • 数据预处理:数据清理,为保证数据的质量,必要的数据治理是需要的。
  • 数据建模:算法本身没有绝对的好坏,不同的机器学习算法都有各自的使用范围。选择合适的建模方法或算法,算法的好坏需要实验比较确定。此阶段是机器学习的核心部分,使用精巧复杂的分析方法从 数据中提取知识,包括选择建模技术、生成测试设计以及构 建和评估模型。算法调优(包括参数或结构等方面),机器学习算法是科学,应用是艺术。
  • 效果评估:选定模型之后,就可以评估机器学习结果在多大程度上能够 帮助实现业务目标。此阶段的要素包括评估学习结果,以便 为机器学习的过程提供反馈。
  • 部署使用 更新:有效的机器学习结果会改善客户业务决策的效果,给客户带来价值。因为业务可能发生变化,在部署过程中需要更新机器学习的模型等。机器学习不是一劳永逸的事情(递增式学习)。

九、机器学习常用算法

  • 监督学习:支持向量机SVM、决策树、朴素贝叶斯分类、k-近邻算法KNN
  • 非监督学习:主成分分析、奇异值分解、K-均值聚类
  • 强化学习:Q-learning
  • 聚类算法
  • 分类算法
  • 回归分析
  • 关联分析

十、数据挖掘常用算法

  • 推荐算法
  • 社会网络分析-文本分析
  • 十一、机器学习常见问题
  • 数据质量问题与预处理
  • 数据量较少
  • 数据量过多
  • 维度灾难
  • 数据不完整
  • 异常数据
     

十二、数据分析常见陷阱

1、错误理解相关关系

  • 事物间的相关性并不意味着存在因果关系,或者有可能其因果关系颠倒了
  • 需要深入理解业务,规避大部分错误
  • 需要分析是否由第三方变量同时引起两种变量的变化,找出其原因

2、错误的比较对象

  • 机器学习中的结果或效果进行比较时,容易将不同样本集进行结果比较,比较对象不合理,其结果自然无效,结论便不能成立

3、数据抽样

  • 数据抽样时如果出现偏差可能会影响分析结果
  • 需要考虑采样标准

4、忽略或关注极值

  • 忽视极值可能失去某类样本或丢失某项重要特征
  • 过于关注极值可能会对结果造成偏差,影响结论

5、相信巧合数据

  • 实验中多次重复实验可避免巧合数据的出现

6、数据未做归一化

  • 两个数据进行比较时,容易进行总数比较,而忽视比例的比较

7、忽视第三方数据

  • 搜集或使用爬虫获得更多数据使数据源更丰富

8、过度关心统计指标

  • 可能会忽视某些方法或结论成立的前提条件
  • 十二、机器学习方法的选择
  • 理解目标要求是机器学习方法选择的关键,首先要 对问题进行分类,如果数据集中有标签则可进行监 督式学习,反之可应用无监督学习
  • 熟悉各类机器学习方法的特性是分析方法选择的基 础,不仅需要了解如何使用各类分析算法,还要了解其实现的原理
  • 在选择模型前,要对数据进行探索性分析
  • 机器学习方法选择过程中可在几个可能模型中分析选出较优的模型
  • 选择模型后,比较不同模型的拟合程度,反复调整参数使模型结果趋于稳定

十三、机器学习项目团队的组建

  • 职能岗位
  • 项目经理
  • 业务专家
  • 机器学习工程师
  • 数据建模人员
  • 可视化人员
  • 评估人员
  • 其他

十四、机器学习人才培养的难题

  • 数理要求高
  • 学习成本高
  • 跨学科综合能力
  • 实践机会少

十五、机器学习技能要求

十六、常见的机器学习平台

  • Python
  • R
  • TensorFlow
  • Caffe
  • 开源社区Github

 

责任编辑:梁菲 来源: 今日头条
相关推荐

2023-06-13 15:35:36

2020-07-28 08:06:24

机器学习技术人工智能

2016-08-10 17:23:36

PythonUrllibURL

2022-09-20 23:38:24

机器学习工具数字优化

2021-04-12 10:46:15

人工智能机器学习

2015-04-14 10:40:31

云计算机器学习

2017-05-05 09:56:08

神经网络模型绘画

2010-07-21 11:17:30

2009-11-30 16:42:27

2010-07-15 18:04:20

Perl模式

2011-08-11 16:19:11

iPhoneCocoa

2010-03-30 14:46:56

CentOS学习

2020-12-16 15:56:26

机器学习人工智能Python

2023-12-21 17:05:46

机器学习MLOps人工智能

2015-09-21 15:00:38

机器学习

2016-01-22 10:38:22

机器学习

2020-06-12 08:19:21

机器学习技术工具

2020-09-10 11:20:37

Python机器学习人工智能

2017-04-07 09:32:20

机器学习调试算法

2017-04-25 16:45:11

点赞
收藏

51CTO技术栈公众号