数据科学 – 第10页小小书 XXshu

作业2-乔什·杜（Josh Thoo）

标题：50位最伟大的NBA球员的表现结论： NBA球员得分越多，他获得的全明星就越多。在15000和22000点之间，总点数与获得并波动的所有星星之间不存在相关性。通常，NBA球员期望每获得2500分获得1个全明星。库（ggplot2）库（字符串）页面<-read_html（“ https://en.wikipedia.org/wiki/50_Greatest_Players_in_NBA_History”） page_tables <-html_table（page，fill = T）玩家<-page_tables [[4]] 玩家<-玩家[order（players $ Pts），]…

我的敏捷写作规则

我想进一步了解敏捷。我想写更多。我有15分钟要杀死，所以我想我会尝试击中该维恩图的靶心。警告警告… 我将从12条敏捷原则的列表中选择主题，以适应我自己的邪恶需求。但是，我将尽量坚持从周日晚上内容生成的盲目跳跃中所能产生的任何输出。如果我能帮助自己，那很好。如果我能帮助别人，那就太好了。如果我能从毫无戒心的中型读者那里获得$ 2.50的掌声，他们只是可怜我试图变得聪明；双赢。无论如何。这是清单。我的列表。警告警告… “客户在定期接收软件时感到高兴” //“确保定期交付工作软件” 我很想假装我可以打电话给任何会读客户的人。…

作业＃2-Denzel Chia

每年访问新加坡的游客人数新加坡旅游–维基百科《 2017年旅游业竞争力报告》在136个国家/地区中将新加坡排在第13位，这是新加坡的第13位。 en.wikipedia.org 摘录于：6/3/2018 结论：自1965年以来，旅游人数增加了，从2005年起游客人数急剧增加。 2000年代的游客人数已经比1900年代的游客人数增加了一倍以上。 2015年的旅游人数是1965年的旅游人数的150倍左右。

Aprendendo Machine Learning com或Andrew Ng

安德鲁·乌拉圭·阿德里亚·维拉·德·阿莱格里亚的Entréopara alegria deMáquina（机器学习）担任校长。意识形态与意识形态之间的共鸣。 Neste Primeiro邮政资料库的最新信息。请注意，néoencontraránenhuma neste。 Paraalguémestudando 机器学习， este cursoéumaexperiênciatipo… 丰特去做就对了。塞里奥一名在课程中获得证明的人。…

第四周：完善的准备？

完善的准备可以防止性能下降。我想是我父亲首先告诉我的。在数据科学中，您80％的时间都花在准备阶段。在这里，您可以轻松地将眼前的不完美信息说成有用的东西。例如，您可能缺少值，或者有异常的异常值将投影朝一个方向或另一个方向拉。您可能需要太多的信息来进行抽样。您可能只是拥有可怕的数据而决定不继续。准备是难题中最重要的部分之一。当您第一次开始进行数据项目时，本能是尽快着手并尽快建立模型，以便获得某种结果。对产生任何东西的渴望使我想起了没有研究的文章。您可能会在两个小时内产生800个单词，但最终结果并不是很有用。过去的一周是关于学习享受数据预处理阶段的知识。我们一直在学习给予它所需的应有的关注和关注。因为没有其他选择。如果您第一次做的不对，那么一旦您的预测不佳且结果低于标准，您将不得不回到过去。

数据科学| 统计＃1 —不同类型的数据分类

由于“数据”实际上是“数据科学”中的第一个词，因此了解数据的不同分类方式是有意义的，对吗？是的，有几种方法… 分类数据与数值数据这是最简单的一种，也是我们大多数人都熟悉的分类类型。分类数据是与组或类别相关的数据。例如，“笔记本电脑品牌”是一个类别，其值类似于Apple，Microsoft和Dell。它还包括“是/否”数据。例如，问题“你结婚了吗？” 会以“是”或“否”的形式引出受访者的数据点。诸如Tableau之类的商业智能（BI）工具通常将分类数据称为“ 维度” 。数字数据是指数字形式的数据。例如，每100名受访者的身高（厘米）。它可以进一步分类为：离散数据—这是数值有限的数字数据。例如，对象的数量，例如篮子里的苹果数量。连续数据 …

通过3个P领导您自己的数据科学项目

关于学习数据科学技术方面的文献很多：统计，机器学习，数据处理，大数据。在开始或带头工作时，该材料将为您提供良好的服务。但是，当您准备展开自己的翅膀并亲自领导一个项目或独立进行一个项目时，该怎么办呢？在这里，您需要一种不同的讲故事的方式-可以传达您从事项目工作的原因，价值所在以及已完成工作的类型。没有这些技能，您将冒着漫无目的地寻找解决方案的风险，而无需为此付出太多努力。您最后想要做的就是当有人问您工作的商业价值时，成为大鹿。将大数据的3个V与模型开发的3个P配对，以提高项目的成功率。继续阅读以了解如何在任何数据科学项目中详细说明问题，过程和进度。问题在现实世界中，问题通常没有得到很好的定义。由医生来定义问题。将此与许多教室设置和入门级职位进行比较，详细介绍工作的每一个细节。这等效于按数字着色的涂色本。您将得到问题和方法。您的工作严格执行。这对于学习主题可能是一种有效的方法，但对于解决问题更开放的实际问题却并非如此。按数字颜色很容易！在您的绘画生涯中的某个时候，您将从详细的说明中毕业，然后转向没有数字的着色书。…

第三周：超越课程范围的学习

Ubiqum基于WeWork Barcelona。除了周一提供免费早餐和一台精美的咖啡机外，WeWork还因组织活动和鼓励大楼内的公司进行互动而闻名。因此，在所有WeWork时刻中最真实的WeWork时刻，我向一位学习者解释说，我对统计数据感到有点生锈（因为注入了水果的冰水）。这个话题很熟悉，但是感觉不太流利。 “参加Coursera课程。”得到了回应。看来，共同工作疗法显然是一件实事。相反，我很不情愿地完成了这一工作，完成了阿姆斯特丹大学关于统计方法的视频引导课程。在两天内，我回到了我在学校的熟悉程度。更好的是，我现在正在学习新课程，并将其应用于 Ubiqum的数据科学工作。在线学习的增长并不是什么新鲜事。英国广播公司（BBC）咬伤（今年英国以外的人在这里链接）已经20岁了！我记得虔诚地使用它。现在，我使用Codecademy改进我的编码，使用Memrise进行语言学习，并使用YouTube教程进行其他所有操作。我担心我的怀疑来自学术界的势利：如果本课没有大的闪亮徽章，那么学习该课程的意义何在？…

1. K-均值聚类

让我们了解无需大量数学知识的K-Means聚类！ 1.1 K-Means的核心思想 K-Means是一种无监督的机器学习技术，其核心思想是基于某些特征以某种方式对记录或数据点进行分组（或聚类），以便每个组包含彼此非常相似但与记录不太相似的记录其他群体。在这里，就记录或数据点而言，我只是指数据集的一行，对于要素而言，我指的是数据集的列。这里要注意的一件重要事情是，在对记录进行分组时，我们实际上不知道可以为每个组分配什么标签（或名称）？或将哪种或哪种记录分组在一起？这使得K-Means成为无监督的机器学习技术。将记录分组在一起后，我们可以随机检查每个组中的某些记录，并尝试了解将哪些记录保持在一起和/或是否可以基于该特定组中的记录为该组命名？因此，我们可以执行这种类型的手动评估（有时称为“定性检查”）来了解K-Means如何处理我们的数据。但是，由于这是手动检查，因此如果您有大量组或每个组中有大量记录，则可能不可行。因此，由于这是一种无监督的技术，因此没有完美的方法来评估组的质量，但是，几乎没有数学和统计方法来评估组的质量，因此我们可以进行相当好的分组，但是在这里我们不会进入那个数学资料！此外，还没有任何完美的方法来确定数据的组数（＃-group或#clusters或K均值中的K）。有时，主题知识有助于确定K的值，但并非总是如此！ 1.2让我们看一个例子…

数据科学与R：如何开始？

它总是从Twitter上的DM开始，在那里有人与我分享他们的个人数据科学抱负，以及他们目前在计划中的位置，然后他们跟进我的要求，以帮助他们弄清楚下一步的工作。我喜欢这些信息，它们肯定了R社区在不断发展并吸引新成员，在某种程度上是通过为初学者创建一个欢迎和支持的空间，并且我们的社区成员对于R的新手来说被认为是平易近人的（足够）伸出手！这些消息过去很少出现，以至于我花时间写给每个人一个量身定制的响应，但是随着时间的流逝，频率越来越高，以至于我无法像我想的那样对细节进行过多的思考和关注。我没有为您提供通用的答案，而是为您（想要学习R的数据科学初学者）创建了这篇文章。我们很高兴您在这里！我明白了—我们都有我们最喜欢的资源！这份清单绝不是要全面的。本来打算对我个人使用的资源有偏见，但这并不意味着它们是唯一的资源！您还会注意到，该列表没有涉及深度学习机器学习和人工智能之类的事情，这是有意的。该列表针对的是从数据科学和R领域开始的人-ML / AI中的复杂主题将在以后的学习中为他们提供。双关语无可厚非线性代数和微积分—视频汗学院一路走！统计—视频可汗学院（Khan…