好像一下子,进入了AI时代,后台的很多小伙伴其实都很迷茫,自己现在该如何去做好准备,去迎接即将到来的All in AI。
所以就有了今天这篇文章啦。今天呢,跟大家分享分享目前机器学习的历程吧,我到现在都没觉得我入门了机器学习,所以也没有什么所谓的经验啊,成功实践啊,没有。
首先甩三句始终相信的话。
- 不要为了机器学习而机器学习。
- 机器学习只有洞悉来自业务的需要,配合业务发展,才能发挥作用,单纯的机器学习没什么用。
- python大法好,用2.7。
业界的前沿机器学习基本都是只支持python和C++,行业标准,就用python。
大数据下还是Spark更实用。
在大数据的环境下,其实落地最实用,场景最多的,还是Spark。
该怎么去下手?
脚抬起了3cm。目标:开眼界。
首先从比较宏观的角度,全面了解机器学习的全貌。看看机器学习能做些什么,能解决什么问题,是什么样的套路。
机器学习就是根据已有特征,训练模型,然后根据模型来预测未知的数据。
很多小伙伴一开始就会扎进去什么支持向量机、Logistic回归、LASSO啊、决策树啊这类算法里面,一下去就去非常深入去理解他们的原理,个人认为这种切入方式是有一点问题的,如果仅仅是为了学习一下这些算法,那还行。长远来说,还是要现有大局观。
- 《图解机器学习》
- 《集体智慧编程》
- 《机器学习》周志华
这三本书我都买了,循序渐进,***本是通俗易懂的机器学习算法图解,作为趣味性入门来说非常好。
第二本是当前机器学习能做些什么事情,以及python怎么实现这些机器学习算法,代码狂人可以在这里面找到一些成就感,推荐先快速翻一遍,再回头,重新一章一章看,一行代码一行代码打,有时候不知道它啥意思也不要紧,打出来跑跑看。
第三本是比较系统地说机器学习的过程,以及每个算法比较严格的数学推导过程,非常严谨,数学要求较高,数学不太好的可以暂时不买,买了也看不懂。
嘛,也不用三本都买,看不完。小伙伴要是急呢,其实把***本看了也就行了,眼界也算是开了,只是手头一点米可以下锅都没有而已····
脚抬了5cm了。目标:了解算法。
这个阶段,可以把所有的算法原理都开始看了,主要的书是上面的《机器学习》。如果英语够好的话呢,在coursera上学学Andrew NG的机器学习公开课。如果英语不好的话呢,可以试试邹博老师的《机器学习实战》,中文解释来说还是非常不错的入门教程。
当然,师傅领进门,修行在个人。
教程和书再好都没有用,还是需要你花时间,慢慢慢慢地,去一点点理解透每个算法背后的原理,以及各种各样的优化方法是怎么发生的。
举例线性回归可以这样进阶地去学习:
纯线性回归。什么是最小二乘法,损失函数怎么求。
核函数。什么叫多项线性回归,什么叫高斯核线性回归。
正则化。什么叫正则化,正则化的目的是什么?LASSO,岭回归,ElasticNet都是什么。L0、L1、L2正则各代表什么东西。
广义线性模型。广义线性模型把什么东西涵盖起来了,是怎么抽象怎么推导的?
大概就这样,一点一点去深入,不用一次性把所有的模型都学完。但是个人建议,线性回归,Logistic回归,决策树这三个必须必须完完整整先看完。毕竟很好理解又很好用,太难的臣妾真的做不到啊!!!逃避可耻但有用吖。
脚抬了6cm了。目标:利用成熟框架。
这个阶段呢,就没什么好的书介绍了,使用scikit-learn去解决前面解决过的问题吧~会发现超级简单,还特么比自己实现的快很多勒。
脚抬了6.5cm了。目标:开始接触神经网络。
把Tenfowflow官网的demo看懂,打一遍。一层一层拨开,看看RNN,CNN,GAN这些现在非常流行的神经网络结构的原理是怎么样的,深度学习目前来说离不开这三兄弟。如果还是看不懂呢,可以搜索一下莫凡Tenfowflow,蛮入门的,但也仅仅是入门而已。大概了解了解也可以了
如果你已经完成了上面的步骤,你已经可以跟我一样出来吹牛逼了,但是其实并没有什么卵用。
脚抬了7cm了。目标:开始实操。
进入Kangle,注册账号,开始泰坦尼克号吧。
脚抬了7.5cm了。目标:开始关注落地的事情。
上面说了那么多其实都没开始任何落地的东西,你的模型要怎么训练,怎么开始结合业务来实际应用起来,你对力量还是一无所知。后台回复"MVP",先行看看吧,大概就那么几种方式模型训练提供服务的,展开来讲文章会太长,会被打pp的。
脚抬了10cm了。目标:开始发现自己数学不够用了。
- 《概率论与数理统计》陈希孺
- 《线性代数应该这样学》
这个嘛,慢慢补吧,一时半会补不上来的T_T。
脚抬了11cm了。目标:关于特征工程。
好的特征是成功的一半。业界有这么一句半玩笑但是有点道理的话。特征选择和特征清洗,决定了你模型的上限,你的算法和优化只是不断逼近这个上线而已。
该系统学学特征工程的东西了,直接度娘特征选择会有一大堆的资料,我这里就不提供了,我写得也没人家写得好。
特!征!工!程!非!常!重!要!
趴倒在门槛上。目标:深入理解前沿的底层原理。
跟进一些过去的优秀论文,比如MapReduce原理的,比如李沫的Parameter原理的,比如GAN原理的,比如LPA原理的。非常非常多的论文,边实践边看呗,我也没看多少所以也没法分享啥。
所以我就趴倒在门槛上,依然还没入门,还在上面某些阶段努力ing。
当然需要去看得远远也不止上面这些书,也远远不止这些论文,希望早日把它们吸收了吧。生活又不止机器学习。生活确实不止远方和诗,悲催的是到了远方,却发现读不懂远方的诗。
- 《女士品茶》
- 《华杉讲透孙子兵法》
- 《论语(白话全译)》
- 《深入浅出统计学》
- 《深入浅出数据分析》
- 《大数据智能》
- 《深度学习》
- 《优雅的理性》
- :heavy_check_mark:《创新着的窘境》
- :heavy_check_mark:《数学之美》
诶,书单越来越长了,慢慢来慢慢来。好啦,分享就差不多到这里,不黑不吹,上面这些过程至少至少需要你业余时间没日没夜搞个半年,大家做好身体锻炼,一起玩命学呗。