“如何学习”和“数据科学”硕士

数据可视化

跟随:

  1. 分解
  2. 弄清楚该做什么,不该做什么
  3. 设计计划
  4. 学习
  5. 实践

让我们深入探讨其中的每一个。

要非常快速地学习任何东西,您需要将其分解成小部分。

为了快速掌握数据科学,您需要将数据科学细分为较小的子学科。 此外,这些子学科可以分解为一组技能和技巧。 更进一步,所有这些技术都可以分解为可学习的小学习单元(我们将在稍后讨论实践)。

在很高的层次上,您可以将基础数据科学细分为以下子学科:

这些类别说明了您需要了解的“基础知识”。

将事情分解后,您需要弄清楚该做什么,但又不该做什么。 为了快速学习数据科学,选择正确的材料并区分做什么和不做什么至关重要。 您需要区分真正重要的和不重要的。

找出应该做的事情也许是两者中更重要的。 当大多数人开始学习时,他们会尝试学习太多。 通常,这会使人们感到不知所措,并且经常使他们将时间花在不必要的话题上。

让我给你举个例子。 截至2017年,已有10,000多个R软件包。 您没看错。 10,000 实际上,您将永远不会学习所有10,000个软件包,更不用说掌握所有10,000个软件包了。

我还应该指出,这些软件包之间存在很多冗余。 在R中,通常有不止一种做事方式。 例如,要执行数据可视化,您可以使用

情节()

从R的基本功能开始,但是还有其他一些用于可视化和绘制数据的软件包和工具。 您知道哪些工具是“最佳”的吗? 您知道需要学习哪些软件包,应该跳过哪些软件包吗?

为了快速有效地掌握R,您需要能够在10,000个软件包中选择很少的软件包。 您需要选择学习什么和忽略什么。

此外,一旦选择了最佳的学习包,就需要这些包中选择要学习的内容。 即使您选择了最佳的R程序包,在这些程序包中也确实需要了解一些工具,但是您可能不需要立即学习其他内容。 有些工具和技术是您真正不需要的,最好等待几个月或几年来学习它们。 同样,您需要知道学习什么以及不学习什么。

在“选择”正确的主题进行学习的背景下,专注于基础技能非常有用。

要掌握数据科学,您需要这样做。 在继续学习高级主题之前,您始终需要掌握基础技术。

因此,在学习数据科学时,这意味着您需要掌握3个关键领域:

  1. 数据可视化
  2. 资料处理
  3. 数据分析(AKA,探索性数据分析)

初学者犯的一个大错误是,在他们掌握这些基础之前,他们太早进入高级主题。 例如,新的数据科学专业的学生对机器学习感到兴奋,并希望通过学习机器学习来开始学习。 首先掌握关键的基础工具(如数据可视化和数据操作)将为这些学生提供更好的服务。

换句话说,通过专注于基础,您可以自己在以后快速掌握更高级的主题。 如果您首先掌握了关键的基础知识,那么您将有能力在以后学习更高级的主题,并且会以更快的速度学习。

您想成为表现最好的数据科学家吗? 首先掌握基础。

这就引出了一个问题:R中的基础数据科学技能是什么?

以下是一个快速列表:

  • 基本可视化:条形图,折线图,直方图
  • 处理图表中的颜色
  • 可视化格式(即,如何格式化图表以使其看起来更好)
  • 字符串操作
  • 日期操作
  • 数据重塑(即从“宽”格式转换为“长”格式,反之亦然)
  • 添加变量
  • 删除变量
  • 汇总数据
  • 读入数据(从外部来源)
  • 使用因子变量(例如,排序因子,重命名因子级别,对因子变量进行重新分类等)

如果您无法做到这些,请不要继续讨论更高级的主题。 不要得到闪亮的物体综合症。 这是一个相当高级的列表,但是很好地列出了您绝对需要知道的事情。 要成为最佳执行者,您应该甚至不必考虑它们就能做到这些。 顶级数据科学家可以“在睡眠中”完成这些操作。

选择正确的主题后,您需要一个学习计划。 具体来说,您需要按最佳顺序对主题进行排序。

有些主题取决于其他主题。 例如,我通常说过,机器学习的先决条件是数据可视化,数据操纵和数据分析。 为了有效地学习ML,您需要能够整理,整理和可视化数据集。 因此,如果您想最终学习ML,则需要首先进行可视化和操作。

最好不要从数据操作开始,因为按照定义,对于更复杂和混乱的数据,需要进行数据操作。 首先有更好的数据科学主题。 为了快速掌握数据科学,您需要能够以最佳顺序对材料进行排序,并在正确的时间学习正确的事情。

一旦有了计划,就可以开始学习。 学习数据科学主题可能具有挑战性。 许多主题可能非常令人困惑。 学习速度的快慢在很大程度上取决于学习材料的质量。

话虽如此,学习不是最后一步。

学习了基本概念和技术后,您需要进行练习 。 您需要练习技巧并复习概念,直到它们成为“第二天性”为止。

这是非常重要的一点。 一次学习和从长远记忆起来绝对是有区别的。

让我给你举个例子。 如果我现在向您展示解释ggplot()函数的视频,您可能会理解它的工作原理。 一旦有人将其分解并解释了语法的每个部分,该语法就很容易理解。

接下来,如果我要求您编写一些简单的ggplot()代码,您可能也可以做到这一点。 例如,假设我要您创建一个简单的散点图:

  ggplot(数据=钻石,aes(x =克拉,y =价格)+
   geom_point() 

如果我要求您做一些简单的事情,例如在R studio中键入代码,您也许可以做到。

但是,如果我要求您3小时后再做一次该怎么办? 如果我在3小时后要求您从内存中编写该代码,则很有可能您将无法执行此操作。

为什么?

因为我们忘记了。 人脑自然会忘记

但是,有一种解决方法。 您可以通过练习停止这一遗忘过程。 具体来说,您需要重复并复习所学内容。

练习技巧并重复所学的内容将使您从长远的角度记住这些东西。 此外,随着练习的进行,您将变得更加“流利”。 您会更快地原谅这些技术,并且练习越多,就越不用犹豫。

练习的另一个好处是,有效的练习方法可帮助您成为“最佳绩效者”。事实上,研究表明,卓越的绩效水平与刻意的练习紧密相关。 如果您想成为一名杰出的表演者,那么练习至关重要。

我已经说过好几次了,要成为一名表现出色的数据科学家,您需要能够“在睡眠中”执行基本技术。 您应该能够“闭着眼睛”进行基本的数据可视化和数据处理。

您可以使用正确的做法,通过正确的方法来达到这种掌握水平。

快速学习数据科学可以带来巨大的好处。

让我们在周围加上一些数字。

假设有两个人正在学习数据科学:您和其他人。 另一个人的学习效率极低,需要花费1000个小时来掌握基础知识。 但是您可以在大约200个小时内更快地学习基础知识。

相差800小时,确实是一个很大的差异。 同样,我们可以对此进行一些计算。

如果您的空闲时间每小时仅价值20美元,那么节省800小时的时间将转化为16,000美元。

但是,可以说您真的很珍惜时间。 (您应该珍惜时间。时间是您无法取回的唯一资源。)如果您以每小时50美元的价格珍惜时间,那么通过更有效地学习而节省的时间将达到惊人的40,000美元。

现在,这些只是用于说明的示例数字,但是您明白了。

高效高效地学习数据科学具有巨大的好处。

成为有效的学习者实际上还有另一个好处。 如果您真的知道如何学习,那么您不仅会学得更快,而且还将获得更高的熟练度和精通度。

如果您在学习数据科学方面非常有效,那么成为“最佳表现者”就容易得多。

成为最佳绩效确实值得。 这样做的原因是,最优秀的技术人员通常会获得超额收益。 最好的人不成比例地获得了最好的工作,最高的薪水和最好的待遇。 您可能已经听说过神话般的“ 10X开发人员”……生产力提高了10倍的人。 这些表现最好的人通常在科技行业中获得最大的回报。

科技界是相似的。 表现最好的人获得的回报最多,而表现欠佳的人则少得多。

尽快学习数据科学和掌握技术绝对是值得的。

让我们回顾一下如何做到这一点:

  1. 分解
  2. 排序材料
  3. 学习
  4. 实践

从高层次看,就是这样(尽管正确的关键在于细节)。

如果您可以将此学习过程应用于数据科学,则将加快学习速度,并增加成功的机会。

但是,如果您真的想加快进度并尽快学习,您还可以做另一件事。

您可以从专家那里获得指导。

表现最好的人知道,他们可以从已经精通该主题的人那里获得建议,从而节省大量时间。

学习新主题非常耗时,因为您需要弄清楚需要学习的内容,设计学习计划,对材料进行排序以及我已经谈论过的所有内容。 但是您需要做这些事情而没有对该主题的清楚了解 。 这就像是在不了解地形的情况下独自尝试穿越丛林。 找一个指南来为您服务会很…有人可以安全,快速地将您带到目的地。

数据科学导师可以确切地告诉您该怎么做:“先学习此知识,然后再学习此知识,专注于xyz,不要理会该主题,等等。”一位优秀的老师可以极大地加快您的学习速度,因为它们减轻了负担必须自己寻找路径。

如果您想快速掌握数据科学,则需要做同样的事情。 虽然可以自己学习数据科学,但在专家指导下,您可以学到很多更快的东西。 这可能包括寻找数据科学导师,但这也意味着一门好的数据科学课程。

如何快速掌握数据科学的文章首次出现在SHARP SIGHT LABS上。

(本文最初在r-bloggers上发表, SHARP SIGHT LABS ,并为R-bloggers做出了贡献。我们对内容进行了编辑,以使其更加友好和易于阅读。)