是时候让你的书架上新增几本机器学习和数据科学书籍了,KDnuggets 网站编辑 Matthew Mayo 挑选了 10 本机器学习和数据科学相关的书籍。这些书籍都是免费的,对机器学习和数据科学感兴趣的人可不要错过了。
1. 《统计思维:程序员数学之概率统计 》
本书是专为Python程序员准备的概率和统计的介绍,作者将基本的概率统计知识融入Python编程,告诉你如何借助编写程序,用计算而非数学的方式实现统计分析。该书使用美国国立卫生研究院的数据进行了案例研究,鼓励读者使用真实数据集处理项目。(地址:http://www.greenteapress.com/thinkstats/)
2.《贝叶斯方法》
贝叶斯方法是推理的自然方法,大多数图书讨论贝叶斯推理,依赖于非常复杂的数学分析和人工的例子,使没有强大数学背景的人无法接触,读者只能看到简单的经过人工处理例子。卡梅伦的这本书从编程、计算的角度来介绍贝叶斯推理,把贝叶斯理论和编程实践结合起来,使大多数程序员都可以入门并掌握(地址:http://camdavidsonpilon.github.io/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers/)
3.《深入理解机器学习:从原理到算法》
机器学习是计算机科学发展最快的领域之一,具有广泛的应用前景。本教材的目的是以原则的方式介绍机器学习及其提供的算法范例。本书通过介绍机器学习基础的理论知识之后,再将这些原理转化为实际算法的数学推导。在介绍了基础知识之后,本书涵盖了以前教科书未解决的各种中心主题。
这些包括讨论学习的计算复杂性以及凸性和稳定性的概念;重要的算法范例包括随机梯度下降,神经网络和结构化输出学习;和新兴的理论概念,如PAC-Bayes方法和基于压缩的边界。(地址:http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning/)
4. 《统计学的要素》
本书在一个共同的概念框架中阐述了这些领域的重要思想。虽然这种方法是统计学的,但其重点是概念而不是数学。通过使用彩色图形给出了许多例子。它应该是统计学家和任何对科学或工业数据挖掘感兴趣的人的宝贵资源。
该书的覆盖范围很广,从监督学习(预测)到无监督学习。许多主题包括神经网络,支持向量机,分类树等 - 这第一本书对该领域的主题做出这样的综合处理。(地址:http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf)
5.《An Introduction to Statistical Learning》
本书介绍了统计学习方法。它针对的是高年级本科生,硕士生和博士生。非数学科学的学生。该书还包含许多R语言的实例,详细解释了如何在现实环境中实现各种方法,可以说是实践数据科学家的宝贵资源。(地址:http://www-bcf.usc.edu/~gareth/ISL/)
6.《Foundations of Data Science》
虽然计算机科学的传统领域仍然非常重要,但未来越来越多的研究人员将参与使用计算机来理解和从应用程序中出现的大量数据中提取可用信息,而不仅仅是如何使计算机对特定明确定义的问题有用。
考虑到这一点,作者写了这本书,以涵盖在未来40年可能有用的理论,正如对自动机理论,算法和相关主题的理解在过去40年中产生了巨大的影响。(地址:https://www.cs.cornell.edu/jeh/book.pdf)
7.《写给程序员的数据挖掘实践指南》
本书是写给程序员的一本数据挖掘指南,可以帮助读者动手实践数据挖掘、集体智慧并构建推荐系统。全书共8章,介绍了数据挖掘的基本知识和理论、协同过滤、内容过滤及分类、算法评估、朴素贝叶斯、非结构化文本分类以及聚类等内容。本书的每章还给出了习题和练习,帮助读者巩固所学的知识。(地址:http://guidetodatamining.com/)
8.《大数据》
本书由斯坦福大学“Web 挖掘”课程的内容总结而成,主要关注极大规模数据的挖掘。这本书与课程一样,是在本科计算机科学水平设计的,不要求你具备任何基础。为了支持更深入的探索,大多数章节都补充了进一步的阅读参考。(地址:http://mmds.org/)
9.《深度学习》
深度学习教科书旨在帮助学生和从业者进入机器学习领域,特别是深度学习。该书的在线版本现已完成,并将在线免费提供。(地址:http://www.deeplearningbook.org/)
10.《机器学习实战》
人工智能,机器学习和深度学习正在改变众多行业。但是建立一个机器学习系统需要你做出许多努力,这本书就是为了帮你实现该目标而写的。
本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。(地址:http://www.mlyearning.org/)