2018年排名前12位的免费必读数据科学教科书小小书 XXshu

学习数据科学可能是压倒性的。

有数百本书，在线课程和研究生学位。 你从哪里开始？

与其尝试自己解决问题，不如使用这份免费的数据科学教科书清单。

每个描述都有一个“操作步骤” ，可通过构建小型项目立即使用这些书。

创建人： Jake VanderPlas

最新数据表明，Python仍然是数据科学和机器学习的主要语言。

《 Python数据科学手册》是提高Python技能的完美参考。

作为数据科学家，通常会要求您完成许多任务，但是您的大部分时间将花在处理数据上。

对于使用Pandas进行频繁的数据操作任务来说，这是一个完美的参考。

本书涵盖了许多其他重要的数据科学主题：

IPython Shell
numpy的计算
使用Pandas进行数据处理
Matplotlib的数据可视化
使用Scikit-Learn进行机器学习

操作步骤 ：将数据处理部分与Pandas配合使用，以清理凌乱的数据集。在这里，您可以找到处理混乱数据的好地方。

作者：艾伦·唐尼（Allen B. Downey）

如果您刚刚开始使用Python进行编程，那么本书非常适合您。

如果您是Python的高级用户，这本书也很适合您。

Think Python审查了从数据结构和函数的基础到更高级的主题（如类和继承）的所有内容。

本书每隔几章将关键概念与案例研究联系在一起。这是加强学习新概念的好方法。

以下是本书涵盖的一些主题的列表：

职能
迭代
数据结构
档案
班级
方法
遗产

行动步骤 ：完成第13章中有关数据结构选择的案例研究。此案例研究是如何完成词频分析的一个很好的例子。

作者：Garret Grolemund和Hadley Wickham

如果您想使自己适合雇主使用并保持最新的数据科学技能，那么您应该对R有所了解。

R与Python并驾齐驱，Python是数据科学的顶级编程语言。

最近对数据科学界的一项调查显示，有52.1％的响应者使用R，仅略低于使用Python的52.6％。

如果您想提高R技能，R for Data Science是一本完美的书。

这里涵盖了多个主题：

勘探
争吵
程式设计
造型
通讯

行动步骤 ：使用本章进行探索性分析。您可以浏览此住房数据集并使用Rmarkdown笔记本记录您的发现。

创建人 ：Hadley Wickham

如果您真的想让自己成为R用户并给雇主留下深刻印象，Advanced R是一个很好的资源。

它涵盖了从基础（包括数据结构，面向对象的编程和调试）到功能性编程和性能代码的所有内容。

行动步骤 ：在Rcpp部分中完成有关R矢量化与C ++矢量化的Rcpp案例研究。修改功能并尝试一些新功能。

作者：Gareth James，Daniela Witten，Trevor Hastie和Robert Tibshirani

《统计学习入门》是机器学习的最佳入门教科书之一。

它提供了易于理解的R解释和代码示例说明。

线性模型广泛，这很棒。这些模型在需要模型解释的业务环境中很流行。

其他一些其他主题包括：

K折交叉验证
正则化
功能选择
多项式回归
基于树的方法
支持向量机
无监督学习

行动步骤 ：使用关于分类的第4章实施逻辑回归模型。使用此信用卡数据集可以预测默认值。

作者：Trevor Hastie，Robert Tibshirani，Jerome Friedman

如果您想加快您的机器学习生涯，则需要对基础知识和高级主题都有深刻的了解。

统计学习要素是将您的机器学习技能提升到更高水平的理想资源。

这是关于机器学习的最全面的书籍之一。

本书回顾了从线性方法到神经网络，增强算法和随机森林的所有内容。

与其他书籍相比，它的数学运算强度更高，这对于深入了解主题非常有用。

行动步骤 ：阅读第3.4.3节，了解岭回归和套索之间的区别。使用此住房数据集来预测住房价格。对所有特征使用Scikit-Learn线性回归实现，然后使用Ridge回归和套索选择最重要的特征。

作者：Shai Shalev-Shwartz和Shai Ben-David

如果您想更深入地了解机器学习算法，这是一本很棒的书。

它分为越来越复杂的以下部分：

基础
从理论到算法
其他学习模式
高级理论

深入学习机器学习主题的一种好方法是从头开始实施它们。

这是您自己实现算法的完美参考。

行动步骤 ：通读有关决策树算法的第18.2章，然后按照本决策树教程进行操作，从头开始编写自己的代码。

创建人 ：Jure Leskovec，Anand Rajaraman，Jeff Ullman

这是一本很棒的书，它是由斯坦福大学有关大规模数据挖掘和网络分析的各种课程开发而成的。

重点是对非常大的数据集进行数据挖掘。

这对于大规模实施生产级别模型很重要。

大型公司每天会收到数亿（或更多）搜索查询，因此他们对挖掘大型数据集特别感兴趣。

本书涉及的主题包括：

Mapreduce
挖掘数据流
链接分析
推荐系统
挖掘社交网络图
降维
大规模机器学习

行动步骤 ：通读链接分析的第5章。有一个很好的例子，说明Google如何使用PageRank算法为页面分配实数以确定页面的“重要性”。完成练习5.1.1，以确定图5.7的简化Internet模型中每个页面的PageRank。

作者：伊恩·古德费洛（Ian Goodfellow），约书亚（Yoshua Bengio）和亚伦·库维尔（Aaron Courville）

深度学习是机器学习中最热门的领域之一。

诸如Google，Facebook和Amazon之类的公司需要在深度学习方面具有专长的高技能专业人员。

是什么让深度学习如此强大？

它可以自动完成机器学习中最困难的部分之一，即功能发现。

本书以易于阅读的幻灯片形式呈现，其中包含许多项目符号和图片。

以下是一些涉及的主题：

深度学习重要性的介绍和解释
算法-反向传播，卷积网络，递归神经网络
无监督深度学习
注意机制

行动步骤 ：通读算法部分，然后使用Python的Theano库通过多层感知器对MNIST数字进行分类。

作者：艾伦·唐尼（Allen B. Downey）

作为数据科学家，对概率和统计数据有扎实的掌握非常重要。

机器学习模型植根于概率论的基础。

在面试中经常会问到您基本的概率和统计问题，因此不时刷新自己也没什么坏处。

这本书是针对程序员的，因此它更多地采用了应用方法，而不是传统的侧重于数学和理论的教科书。

各节简短易读，因此您可以快速浏览示例。

涵盖的一些主题包括：

描述性统计
累积分布函数
连续分布
可能性
运营与分销
假设检验
估算值
相关性

行动步骤 ：通读关于假设检验的第7章。通过练习7.3来确定后生概率，即初生婴儿和其他婴儿的出生体重分布不同。

创建人 ：Cam Davidson-Pilon

这是一本贝叶斯统计教科书，采用了“理解第一”，“数学第二”的观点。

贝叶斯推理是机器学习中的一个重要主题，它采用的方法与经典推理统计方法不同。

我们永远无法确定结果，但是有了一些先验知识，我们就可以对结果建立信心。

这本书有一种对话的语气，使事情变得有趣。一些主题包括：

贝叶斯方法
使用Python建模贝叶斯问题
马尔可夫链蒙特卡洛
大数定律
损失函数
选择适当的先验分布

操作步骤 ：阅读第2章有关贝叶斯A / B测试的示例。这是真实应用程序的一个很好的例子。使用Python自己编写此代码，然后使用试验次数N来查看后验分布如何变化。

作者：艾伦·唐尼（Allen B. Downey）

艾伦·唐尼和绿茶出版社的另一重要资源。

本书采用逻辑方法解决问题。

作者使用大量示例向您展示在对现实问题建模时需要做出的决策类型。

这是本书中包含的一些主题：

贝叶斯定理
计算统计
决策分析
观察者偏见
假设检验
处理尺寸

行动步骤 ：阅读第7章中的NHL示例。编写代码以及Python中的示例，以计算每个团队赢得下一场比赛的概率。

现在您已经有了2018年可以使用的最佳免费数据科学资源列表，开始构建项目。

使用我提供的示例来开始您的学习。

学习是一个过程，因此请一小部分。

请记住，它不一定是完美的。目标是学习，建立和展示您的技能。