这没什么问题,但你很可能列出一张事无巨细、耗时费力、近乎难以实现的目标清单,让你应接不暇,而且很有可能失去动力,因为实在是有太多任务了。
如果打算今年进入数据科学领域,这是个很棒的决定。该领域广受认可,而且好找工作,工资也不错,就连管理部门也慢慢意识到数据科学是不可或缺的。
不过在开始之前,请允许我说些打击的话(有必要说):用一年的时间去学数据科学的所有内容是不够的。
别误会,一年的时间足够你找到第一份工作,但不可能一步登天,从零成为数据科学团队的领头人(如果做到了,请在评论区分享你的故事)。
说了这么多,来探索必备技能以及满足你上手操作的技能。
1. 数据库?
我们分析的数据很可能出自某个数据库,这是不同于书籍或课程的典型情况——不会获得格式正确的CSV文件。通常,你需要具备专业知识(或认识懂这方面知识的人),对SQL也要有一定的了解。
如果用Python或R语言分析,那就不要用太多时间来学SQL分析函数、PLSQL/T-SQL和所有那些高难度东西。在这种情况下,SQL的任务很大程度上依靠的是结合几组表格,在上面进行分析。
这个过程要花的时间取决于使用方式以及先验知识,但新手在这里花的时间不会超过一个月。
2. 现在来谈谈数据科学
如果按照上面的每一步来,还没有先验知识,此时可能是2020年的8月或9月。时间已经过去很多了,但你已经具备寻求第一份工作的所有先决条件。
不是所有都要刚刚好。
要找一份数据科学的工作,目前也只提了先决条件。后面这两个月,建议对一些基础的数据分析和可视化库有所了解,如:
- Numpy
- Pandas
- Matplotlib
- Scipy
- Statsmodels
这是在你不懂的情况下(如果不知道为何需要这些知识的话学起来会感到无聊)。
不要走马观花式看课程,到网站上下载数据集然后完整地分析。再到网上看其他人对于同一数据集是如何处理的,看自己怎么改进。
同样,在这两个月时间内,应该熟悉一些机器学习的算法,如:
- 线性回归(Linear Regression)
- 逻辑回归(Logistic Regression)
- 分类与回归树(Classification and Regression Trees)
- KNN(k-NearestNeighbor,K最近邻分类算法)
- 朴素贝叶斯分类(Naive Bayes)
- SVM(Support Vector Machine,支持向量机)
也许实际操作中不会用到这些,但它们是日后学习更多高级算法XGBoost和神经网络(Neural networks)的基础。有了分析数据库,记得不要只顾着跟教程,而要自己完成高质量的任务。如果你喜欢,尝试用Numpy从零开始运用算法,不过并不强制大家。
3. 编程呢?
没错,数据科学离不开编程技能。如果找到一份工作,但不会写代码,你很可能知道自己该做什么却不知从何下手,也有可能会经历SOCPS(一种不知道怎么写代码就从Stack Overfow网站上复制粘贴的综合症),甚至不看问题和答案。
在网上搜索更好的解决方案是可以的,但应该知道怎么自己写出一套基本方案。
之前从没写过的话,可以从小入手,读读有关Python或R的书籍及其在数据科学中的角色,先有个全面的了解,再深入学习语法。不用担心要记所有的内容,能确保在遇到困难时该朝哪个方向看就行。
要是已经读过相关书籍或上过讲编程的课也了解语法,就是不知道怎么解决问题,那就花些时间学学算法和数据结构。同时看一些常规的编码问题采访,这些会让你“文思泉涌”。
对自己的编程技能很满意对吗?那可太棒了!现在腾点时间给分析库——Numpy和Pandas库。
每个人在编码上花的时间也不同。新手小白和仅需了解库的知识的人就不一样。可以说完全不懂的人3-4个月的时间足矣,如果是只需学习库的知识的人,大概1个月的时间就可以。
4. 提高数学技能
你一定听说过数据科学首先要求优秀的数学能力。要了解的数学知识因工作岗位而异,至于入门需要掌握多少,笔者给出的回答是:没你想得多。
且听我一一叙述。初学者会试图掌握任何相关领域的知识,比如说计算、线性代数、概率计算或统计学,但必须见好就收。
可别误会了,倘若你有的是时间,那就成为上述领域的专家,否则就不要浪费时间。作为刚步入该领域的初级数据科学家,不仅要了解数学知识,更多是在直观层面。要知道特定的场合进行什么操作,这就是直觉发挥作用的时刻,但无需花太多时间着手解决复杂的数学问题。
只要悟性强,明白怎么编码,就足够了。找到工作后你将有大把的时间钻研数学,所以没必要提前学所有的东西。
如果没有高数基础,不建议花2-3个月的时间提升数学技能。
接下来呢?
2020年剩下几个月的时间里,创建个GitHub账户(a),放上最好的分析报告或机器学习算法,提供给潜在的雇主看。同时准备一份漂亮的简历和求职信。
倘若真的喜欢,发表一篇有关学习历程的博客。网上的呈现只会在职业发展中对你有帮助,前提是别发无用的信息,但我相信你的判断力。
就是这样了,赶紧给理想的公司投简历吧。