据外媒报道,新加坡2万公务员将在未来5年内接受数据分析培训,新加坡政府已任命***数据战略官员,领导实现政府各部门的数据化计划。大数据时代,公务员们都得是“数据”高手!数据分析在新加坡已经是最热门的职业,也是应届生们的***职业之一。
大数据风潮席卷全球,为什么人人都要学数据分析?
1.为什么要学数据分析
大数据号称新时代的石油,很多行业都开始用数据驱动业务,通过对数据的分析和挖掘,从单纯的数据报表,到建模分析,深入挖掘,来帮助业务部分来系统的思考问题。
同时,数据分析也相对容易一些,比较好上手。
Python的应用的领域可以分为爬虫、web开发、数据分析、机器学习等方向。和机器学习相比,数据分析偏业务,机器学习偏工程,数据分析入门对数学功底和算法基础的要求并不是特别高。
2.为什么选Python做数据分析
可以来做数据分析的语言和工具比较多,为什么偏偏选Python?
拿常见的R语言和Excel来说:
R语言其实是为统计学而生的语言,用来做统计学确实非常厉害。
但是R语言在语法的美观和使用的简洁便利上看,要比Python差很多,小函数一堆,而且语法不好理解,没有Python这么容易上手和通熟易懂。
而 Excel只能做一些简单的处理逻辑处理,适合小规模的数据集,或者简单的数据清洗,对于复杂的逻辑处理,数据清洗,还是用Python来的方便。
3.数据分析岗位职业发展路径
在数据科学领域,有三个不同的角色,分别是:商业分析师,数据工程师和数据科学家,难度依次递增。
1.商业分析师
商业分析师的工作主要围绕报表和指标这两块儿,包括:
- 定义关键绩效指标
- 设计和实现报表
- 从用户那里收集报表需求
- 与数据工程师对接确保数据被正确地收集和存储
- 查询数据(一般是聚合过的)
2.数据工程师
数据工程师的工作主要围绕架构和收集这两块儿,包括:
- 通过写数据传输包、设计聚合过程、优化存储,来构建和维护数据传输和存储的基础设施
- 将生产环境产生的原始数据,转换为商业分析师可以用来制作报表的格式化的数据
3.数据科学家
数据科学家的工作主要围绕预测和优化这两块儿,包括:
- 负责构建预测算法,以提升用户体验,最终增加参与度、留存率、收益
- 负责数据驱动的产品的改进和建议
这其实是一个金字塔,商业分析师位于金字塔的***层,数据科学家位于金字塔的最顶层。
4.数据分析师的薪资如何
拉勾网上数据分析师基本上在1-2年经验的平均年薪在20万左右。
再看一下数据分析师的岗位主要需求城市:
主要是在北上广深和杭州 5个大的城市,其中北京的需求最多,几乎是第2/3/4位的总和。
5.数据分析需求技能
数据分析的内容多,而且比较全面,比如我们前面写了很多关于房地产,拉勾照片,旅游网站的数据,一般来说数据分析分下面几个过程:
***步:数据的爬取
数据分析过程非常像我们平时做饭,***步要先买菜,如何获取数据呢,很多时候我们需要爬取数据,爬虫涉及的知识比较多:
比如常见的http原理,爬虫的基本解析库reuqests,网页解析库BS,Pyquery,掌握一些分布式爬虫的框架,当然还有一些反爬虫的策略。当然如果我们能有现成的数据集会方便很多。
第二步:数据格式的处理和清洗
买好了菜,接着我们需要洗菜,也就是数据清洗!常见的数据集都是csv和json格式,需要熟练的掌握着两种格式的。Python中数据分析的神兵利器是Pandas,这个库非常好用,功能也是非常强大的。可以对数据进行各种花色的清洗和切割,几乎所有用Python玩数据分析,必须学会pandas库的用法。
第三步:数据的存储
清洗完成之后数据需要存储起来,一般用的比较多的 SQL 和 MongoDB。几乎所有的数据分析师招聘都会面试SQL的用法,所以掌握一门数据的使用是非常有必要的!基本的增删改查这样入门级的操作,一定要熟练掌握。
第四步:数据的探索
我拿到一个数据集之后,需要对数据进行探索,分析数据之间的关系,每个特征值,每个变量的之间相关性和相互的影响,比如常见的EDA 探索数据分析法。
单变量,双变量和多变量的探索,可以从很多角度,对数据进行切片分析,非常数据集中的变量之间的关系,找出相关性比较强的数据。
如果需要对数据进行深入的挖掘,需要了解机器学习的相关算法,大体分监督学习和无监督学习,比如回归问题,分类问题。这部分对数据集进行深入挖掘之后,可以找出数据间的规律,训练好的之后,可以预测数据,很是牛逼。
第五步:数据的可视化
展现数据***的方法就是数据可视化,数据的可视化有很大的库,比如 echart,matplotlib,d3 和 Tableau,当然还有excel,一般数据分析师必须要掌握exce或者Tableau。尤其是Tableau现在越来越多的公司用它来做可视化分析,有一个有趣的必然,同样一个库用R语言需要30分钟才能完成,Tableau只需要5分钟。