“如何学习”和“数据科学”硕士小小书 XXshu

跟随：

分解
弄清楚该做什么，不该做什么
设计计划
学习
实践

让我们深入探讨其中的每一个。

要非常快速地学习任何东西，您需要将其分解成小部分。

为了快速掌握数据科学，您需要将数据科学细分为较小的子学科。此外，这些子学科可以分解为一组技能和技巧。更进一步，所有这些技术都可以分解为可学习的小学习单元（我们将在稍后讨论实践）。

在很高的层次上，您可以将基础数据科学细分为以下子学科：

数据可视化
资料处理
数据分析

这些类别说明了您需要了解的“基础知识”。

将事情分解后，您需要弄清楚该做什么，但又不该做什么。为了快速学习数据科学，选择正确的材料并区分做什么和不做什么至关重要。您需要区分真正重要的和不重要的。

找出不应该做的事情也许是两者中更重要的。当大多数人开始学习时，他们会尝试学习太多。通常，这会使人们感到不知所措，并且经常使他们将时间花在不必要的话题上。

让我给你举个例子。截至2017年，已有10,000多个R软件包。您没看错。 10,000 实际上，您将永远不会学习所有10,000个软件包，更不用说掌握所有10,000个软件包了。

我还应该指出，这些软件包之间存在很多冗余。在R中，通常有不止一种做事方式。例如，要执行数据可视化，您可以使用

情节（）

从R的基本功能开始，但是还有其他一些用于可视化和绘制数据的软件包和工具。您知道哪些工具是“最佳”的吗？您知道需要学习哪些软件包，应该跳过哪些软件包吗？

为了快速有效地掌握R，您需要能够在10,000个软件包中选择很少的软件包。您需要选择学习什么和忽略什么。

此外，一旦选择了最佳的学习包，就需要在这些包中选择要学习的内容。即使您选择了最佳的R程序包，在这些程序包中也确实需要了解一些工具，但是您可能不需要立即学习其他内容。有些工具和技术是您真正不需要的，最好等待几个月或几年来学习它们。同样，您需要知道学习什么以及不学习什么。

在“选择”正确的主题进行学习的背景下，专注于基础技能非常有用。

要掌握数据科学，您需要这样做。在继续学习高级主题之前，您始终需要掌握基础技术。

因此，在学习数据科学时，这意味着您需要掌握3个关键领域：

数据可视化
资料处理
数据分析（AKA，探索性数据分析）

初学者犯的一个大错误是，在他们掌握这些基础之前，他们太早进入高级主题。例如，新的数据科学专业的学生对机器学习感到兴奋，并希望通过学习机器学习来开始学习。首先掌握关键的基础工具（如数据可视化和数据操作）将为这些学生提供更好的服务。

换句话说，通过专注于基础，您可以自己在以后快速掌握更高级的主题。如果您首先掌握了关键的基础知识，那么您将有能力在以后学习更高级的主题，并且会以更快的速度学习。

您想成为表现最好的数据科学家吗？首先掌握基础。

这就引出了一个问题：R中的基础数据科学技能是什么？

以下是一个快速列表：

基本可视化：条形图，折线图，直方图
处理图表中的颜色
可视化格式（即，如何格式化图表以使其看起来更好）
字符串操作
日期操作
数据重塑（即从“宽”格式转换为“长”格式，反之亦然）
添加变量
删除变量
汇总数据
读入数据（从外部来源）
使用因子变量（例如，排序因子，重命名因子级别，对因子变量进行重新分类等）

如果您无法做到这些，请不要继续讨论更高级的主题。不要得到闪亮的物体综合症。这是一个相当高级的列表，但是很好地列出了您绝对需要知道的事情。要成为最佳执行者，您应该甚至不必考虑它们就能做到这些。顶级数据科学家可以“在睡眠中”完成这些操作。

选择正确的主题后，您需要一个学习计划。具体来说，您需要按最佳顺序对主题进行排序。

有些主题取决于其他主题。例如，我通常说过，机器学习的先决条件是数据可视化，数据操纵和数据分析。为了有效地学习ML，您需要能够整理，整理和可视化数据集。因此，如果您想最终学习ML，则需要首先进行可视化和操作。

最好不要从数据操作开始，因为按照定义，对于更复杂和混乱的数据，需要进行数据操作。首先有更好的数据科学主题。为了快速掌握数据科学，您需要能够以最佳顺序对材料进行排序，并在正确的时间学习正确的事情。

一旦有了计划，就可以开始学习。学习数据科学主题可能具有挑战性。许多主题可能非常令人困惑。学习速度的快慢在很大程度上取决于学习材料的质量。

话虽如此，学习不是最后一步。

学习了基本概念和技术后，您需要进行练习。您需要练习技巧并复习概念，直到它们成为“第二天性”为止。

这是非常重要的一点。一次学习和从长远记忆起来绝对是有区别的。

让我给你举个例子。如果我现在向您展示解释ggplot（）函数的视频，您可能会理解它的工作原理。一旦有人将其分解并解释了语法的每个部分，该语法就很容易理解。

接下来，如果我要求您编写一些简单的ggplot（）代码，您可能也可以做到这一点。例如，假设我要您创建一个简单的散点图：

  ggplot（数据=钻石，aes（x =克拉，y =价格）+
   geom_point（）

如果我要求您做一些简单的事情，例如在R studio中键入代码，您也许可以做到。

但是，如果我要求您3小时后再做一次该怎么办？如果我在3小时后要求您从内存中编写该代码，则很有可能您将无法执行此操作。

为什么？

因为我们忘记了。人脑自然会忘记 。

但是，有一种解决方法。您可以通过练习停止这一遗忘过程。具体来说，您需要重复并复习所学内容。

练习技巧并重复所学的内容将使您从长远的角度记住这些东西。此外，随着练习的进行，您将变得更加“流利”。您会更快地原谅这些技术，并且练习越多，就越不用犹豫。

练习的另一个好处是，有效的练习方法可帮助您成为“最佳绩效者”。事实上，研究表明，卓越的绩效水平与刻意的练习紧密相关。如果您想成为一名杰出的表演者，那么练习至关重要。

我已经说过好几次了，要成为一名表现出色的数据科学家，您需要能够“在睡眠中”执行基本技术。您应该能够“闭着眼睛”进行基本的数据可视化和数据处理。

您可以使用正确的做法，通过正确的方法来达到这种掌握水平。

快速学习数据科学可以带来巨大的好处。

让我们在周围加上一些数字。

假设有两个人正在学习数据科学：您和其他人。另一个人的学习效率极低，需要花费1000个小时来掌握基础知识。但是您可以在大约200个小时内更快地学习基础知识。

相差800小时，确实是一个很大的差异。同样，我们可以对此进行一些计算。

如果您的空闲时间每小时仅价值20美元，那么节省800小时的时间将转化为16,000美元。

但是，可以说您真的很珍惜时间。（您应该珍惜时间。时间是您无法取回的唯一资源。）如果您以每小时50美元的价格珍惜时间，那么通过更有效地学习而节省的时间将达到惊人的40,000美元。

现在，这些只是用于说明的示例数字，但是您明白了。

高效高效地学习数据科学具有巨大的好处。

成为有效的学习者实际上还有另一个好处。如果您真的知道如何学习，那么您不仅会学得更快，而且还将获得更高的熟练度和精通度。

如果您在学习数据科学方面非常有效，那么成为“最佳表现者”就容易得多。

成为最佳绩效确实值得。这样做的原因是，最优秀的技术人员通常会获得超额收益。最好的人不成比例地获得了最好的工作，最高的薪水和最好的待遇。您可能已经听说过神话般的“ 10X开发人员”……生产力提高了10倍的人。这些表现最好的人通常在科技行业中获得最大的回报。

科技界是相似的。表现最好的人获得的回报最多，而表现欠佳的人则少得多。

尽快学习数据科学和掌握技术绝对是值得的。

让我们回顾一下如何做到这一点：

分解
排序材料
学习
实践

从高层次看，就是这样（尽管正确的关键在于细节）。

如果您可以将此学习过程应用于数据科学，则将加快学习速度，并增加成功的机会。

但是，如果您真的想加快进度并尽快学习，您还可以做另一件事。

您可以从专家那里获得指导。

表现最好的人知道，他们可以从已经精通该主题的人那里获得建议，从而节省大量时间。

学习新主题非常耗时，因为您需要弄清楚需要学习的内容，设计学习计划，对材料进行排序以及我已经谈论过的所有内容。但是您需要做这些事情而没有对该主题的清楚了解 。这就像是在不了解地形的情况下独自尝试穿越丛林。找一个指南来为您服务会很…有人可以安全，快速地将您带到目的地。

数据科学导师可以确切地告诉您该怎么做：“先学习此知识，然后再学习此知识，专注于xyz，不要理会该主题，等等。”一位优秀的老师可以极大地加快您的学习速度，因为它们减轻了负担必须自己寻找路径。

如果您想快速掌握数据科学，则需要做同样的事情。虽然可以自己学习数据科学，但在专家指导下，您可以学到很多更快的东西。这可能包括寻找数据科学导师，但这也意味着一门好的数据科学课程。

如何快速掌握数据科学的文章首次出现在SHARP SIGHT LABS上。

（本文最初在r-bloggers上发表， SHARP SIGHT LABS ，并为R-bloggers做出了贡献。我们对内容进行了编辑，以使其更加友好和易于阅读。）