最近经常被问到怎么入门数据分析,可能很多同学对怎么开始学习还是比较困惑的。我回想自己学习数据分析的经历,总结了一些建议,希望能给到大家帮助。
打好概率与统计的基础
概率与统计是数据分析的基石,像一些概率分布、抽样、线性回归、时间序列都是数据分析当中经常会用到的,可以说日常碰到的大部分的分析需求都可以用统计分析来解决。
理工科专业的同学大多在本科期间就学过概率与统计这门课,这部分的基础应该还是比较扎实的。对于没有基础的同学,有一本叫《深入浅出统计学》的书非常值得一读,豆瓣上的评分8.5分
这本书非常通俗易懂,讲理论知识的时候结合了很多案例,把统计学应用到解决实际问题当中,让原本枯燥的统计学原理变得有趣起来,适合非专业人士入门学习。
掌握数据库技能
做数据分析离不开查询数据库,这里主要涉及的是SQL。对于传统的数据库如MySQL,SQL Server,Oracle,或者大数据平台Hadoop,都可以通过SQL查询的方式来获取数据。入门SQL的书推荐一本《MySQL必知必会》,豆瓣评分8.4分。
这本书实践性很强,教你怎么用SQL语句操作MySQL。可以自己在电脑上装一个MySQL,跟着书中的案例操作一遍。
掌握Python或者R
Python和R是数据分析当中最常用的两门语言。R是为数据分析而生的一门语言,但Python在数据分析方面有后来居上的趋势。公司里的数据科学团队在几年前还是用R做的分析,最近一年已经转向Python了,身边的朋友也听到很多R转Python的。性能上来说,Python的速度更快,可以处理上G的数据,而R不行。所以长远来说,我还是看好Python的。
讲Python基础的有一本《A byte of Python》非常推荐,我当初就是看这本书入门的,读起来很轻松,两三天就可以读完。网上已经有人把这本书翻成中文,地址在这儿:https://bop.mol.uno/
数据分析相关的,推荐这本《利用Python进行数据分析》,豆瓣评分8.5分。
作者是广受好评的pandas库的开发者。读完这本书,可以对用Python做数据分析涉及到的一些工具、怎样用pandas、怎样做数据可视化有比较详尽的了解。
机器学习
数据分析如果继续深入的话,可以学习机器学习。机器学习涉及的理论主要是分类、回归、聚类、决策树、贝叶斯定理等。机器学习相关的书强烈推荐一本《机器学习实战》,豆瓣评分8.2分。
这本书介绍了机器学习中最常用的几种算法,对算法背后的数学原理也有介绍,对于理解机器学习的算法非常有帮助。书中的代码和例子都是用Python实现,非常适合有python基础的同学学习。
以上这些是数据分析最基础的技能,有编程基础的同学花两三个月差不多就能入门了,零基础可能要多费点时间。当然看书学习只是掌握理论知识,要真正的掌握还是要在项目中去实践。