Python数据建模指南:从数据到模型要怎么做,炼丹师的心路历程

开发 后端 大数据
本文将会按照四个部分来讲述如何从业务数据中分析数据,建立模型,希望对大家有所帮助!

本文将会按照以下四个部分来讲述如何从业务数据中分析数据,建立模型,希望对大家有所帮助!

  • 数据从哪来
  • 如何分析数据
  • 机器学习算法简介
  • 预测效果评估

Part1: 数据从哪来

你眼中的大数据分析和实际的大数据分析实际上是非常不一样的 

Python数据建模指南:从数据到模型要怎么做,炼丹师的心路历程
你眼中的大数据分析和实际的大数据分析

一般来说,实际业务的数据都是无法直接拿来进行数据建模的,我们需要进行一系列的分析和转化,才能够得到建模所需要的数据.

数据分析项目中数据分准备工作需要花费整个项目60%~70%的时间,而建模可能恰恰是数据分析项目中最(相对)轻松的事情

试想一下,如果你的leader让你去分析某一个业务数据,对你而言你仅仅只是知道这部分数据叫什么名字,你会怎么做?会有哪些问题? 数据安全,权限,部门沟通,业务理解,每一个环节都是一个"坑"!

常见的数据准备的工作:

  • 理清业务逻辑: 理清业务表的字段含义,关联逻辑, 跨部门,跨职级,理解的差异
  • 设定训练目标: 了解业务目标,根据实际数据确定模型训练的目标
  • 数据样本评估: 极端值,,数据分布,方差,信息熵
  • 特征工程: 用数据去表达数据,建立建模所需的大宽表
  • 建模: 建模是最轻松的事情?

Part2: 如何分析数据

从传统的统计学角度,我们可以对数据进行一系列的探索 

Python数据建模指南:从数据到模型要怎么做,炼丹师的心路历程
Python数据建模指南:从数据到模型要怎么做,炼丹师的心路历程
Python数据建模指南:从数据到模型要怎么做,炼丹师的心路历程

Part3: 机器学习算法简介

在进行建模之前我们需要搞懂一个最最简单,也是最最基础的问题,什么是预测: 用数据和统计科学做预测,不仅做量化推断,还量化推断的确定性/不确定性 

Python数据建模指南:从数据到模型要怎么做,炼丹师的心路历程

除此之外,为了能够更好地理解模型,我们还需要知道一些建模的术语比如: 损失函数,梯度下降等 

Python数据建模指南:从数据到模型要怎么做,炼丹师的心路历程

sklearn的官方文档,为算法选择提供了一个很好的路线路图 

Python数据建模指南:从数据到模型要怎么做,炼丹师的心路历程
Python数据建模指南:从数据到模型要怎么做,炼丹师的心路历程
Python数据建模指南:从数据到模型要怎么做,炼丹师的心路历程

Part4: 预测效果评估

很多时候,准确率并不能满足我们对模型预测性的评估,因为样本存在不平衡,所以我们需要其他的评估方法,比如ROC,AUC,KS 

Python数据建模指南:从数据到模型要怎么做,炼丹师的心路历程
Python数据建模指南:从数据到模型要怎么做,炼丹师的心路历程

 

 

 

责任编辑:未丽燕 来源: 今日头条
相关推荐

2016-11-14 10:00:29

hadooplinux大数据

2011-11-16 10:49:56

Windows 8系统

2009-01-05 10:06:24

草根站长网站心路历程

2024-03-14 11:46:44

数据分析师定价模型

2015-04-16 16:35:47

2023-09-27 22:44:18

数据迁移数据库

2009-03-28 09:42:02

Windows 7微软操作系统

2020-12-04 17:21:18

前端开发技术

2013-07-24 10:55:51

2012-01-04 10:04:13

App Store开发者

2019-09-16 09:25:01

开发者技能工具

2016-01-05 16:17:59

云梦数据仓

2024-07-03 12:01:36

2020-07-28 08:36:54

数据安全数据泄露数据

2020-11-18 14:01:07

设计师产品需求项目

2017-11-08 12:25:37

小程序运营公众号

2023-05-26 07:50:17

数据分析师BI工具

2017-01-03 10:27:42

医疗大数据医院

2012-11-23 10:09:19

创业码农程序员

2015-06-25 13:06:48

大数据从选择到应用
点赞
收藏

51CTO技术栈公众号