数据科学 – 第21页小小书 XXshu

机器学习的“第一天”入门

在我的上一篇文章《机器学习的第0天入门》中，我向初学者介绍了机器学习（ML）的一些高级概念，并尽力将Supervised ML幕后的一些方法与我们许多人小时候可能学到的共同技能：学习骑自行车。现在已经奠定了基础，让我们开始构建结构的其余部分，并深入研究典型工作流程中的流程。当我们更详细地研究这些过程时，我有时会重新介绍我们以前学习的技能（骑自行车）的各个方面，以继续与我们已经介绍的高级概念进行比较。最后要注意的一点：该博客主要是针对监督型ML的，但是我将尝试指出其他ML方法之间的流程共同点。 A.数据在开始下一步工作之前，我们实际上是在需要开始处理一些数据以完全了解我们在流程各个部分中正在做什么的时候。许多介绍型文章使用的是Iris数据集（Fisher，1936年），这就是我们将在此处使用的内容，因此，让我们从对域视图的数据更好的理解开始。注意：对于初学者来说，这是整个ML过程中最容易被忽略的步骤之一，对于数据科学初学者来说更是如此。始终牢记，如果可用，请确保您花时间对数据域进行自我教育（即，数据来自何处？它描述什么？）。在项目之前了解此类信息将有助于更好地定义解决问题的方式。根据UCI机器学习库：这也许是模式识别文献中最著名的数据库。费舍尔的论文是该领域的经典著作，至今仍被频繁引用。（例如，请参见Duda＆Hart。）数据集包含3类，每类50个实例，其中每个类都涉及一种鸢尾植物。一类与另一类可线性分离；另一类可线性分离。后者不能线性分离。预测的属性：虹膜植物的类别。…

不要为了钱而做

图片由思想目录在未飞溅我在业余时间写小说。结果，我经常被问到写作小说和数据科学之间是如何联系的，以及两者之间是否可以互相教teach。您最可能已经读到了讲故事在商务会议到数据科学教学等各种活动中的重要性。所以我不会说的。相反，这是我在写作和数据科学方面都变得更好时所发现的一些知识。如果您喜欢它会有所帮助。如果没有，你会放弃的。写作和数据科学都可能令人沮丧。您的数据或机器学习算法通常会拒绝运行。否则，正确的字词，措词或情节结构只会使您无法理解数小时甚至数天。如果您喜欢自己的工作，并且可以看到过去的暂时性挫折，那么它会有所帮助。你必须坚持下去。我花了一年多的时间才能完成一本小说，而那是在随后的冗长剪辑之前。我每天尝试写一到两页，通常从黎明开始。我的目标是-但不一定总是成功-在一周中的大部分时间都坚持脚步并写点东西。…

艾萨克·雷耶斯（Isaac Reyes）在ODSC East 2018上讲故事的关键原则

第六感的科尔看到死者的地方，艾萨克·雷耶斯看到的图表不好。 Reyes担任DataSeer Inc.的创始人和数据科学家时，可帮助个人和企业更好地理解和传达隐藏在数据中的消息。雷耶斯在ODSC East 2018上的主题演讲中，分享了数据叙事的关键原理-将充满数字和图表的滑动平台变成清晰而有影响力的数据故事的艺术。以下是他最深刻的见解：幻灯片版权Isaac Reyes，ODSC East 2018 雷耶斯（Reyes）认为，数据叙事过程的第零步是向自己询问目标受众。我的听众是谁，他们需要知道什么？应该将听众视为“数据故事的英雄”，以使信息清晰易懂。因此，例如，雷耶斯（Reyes）在向商业领袖的演讲中建议使事情尽可能直接。不要在摘要标题上听取大学统计教授的建议，而应根据它们应该传达的信息来命名图表：幻灯片版权Isaac…

顶尖的两个Udemy课程2019

超过50万用户 1.机器学习AZ™：动手处理Python和R数据科学—（已注册372,677名学生）课程内容对机器学习领域感兴趣？那么本课程适合您！本课程由两位专业的数据科学家设计，因此我们可以共享我们的知识，并帮助您以简单的方式学习复杂的理论，算法和编码库。我们将逐步引导您进入机器学习世界。通过每个教程，您都将开发新技能，并加深您对数据科学这一充满挑战但利润丰厚的子领域的了解。本课程既有趣又令人兴奋，但是与此同时，我们也深入研究了机器学习。它的结构如下：第1部分-数据预处理第2部分-回归：简单线性回归，多重线性回归，多项式回归，SVR，决策树回归，随机森林回归第3部分-分类：逻辑回归，K-NN，SVM，内核SVM，朴素贝叶斯，决策树分类，随机森林分类第4部分-聚类：K均值，层次聚类第5部分-关联规则学习：Apriori，Eclat 第6部分-强化学习：置信区间上限，汤普森抽样第7部分-自然语言处理：NLP的词袋模型和算法第8部分-深度学习：人工神经网络，卷积神经网络…

Cynefin Framework及其在当今软件行业中的影响

如今，软件已经从句法角色转移到了更多的语义角色。任何软件决策都会渗透到整个领域，从而对业务产生实质性影响，因此，对于每个企业而言，在做出任何决策时保持软件/ IT部门处于循环中比以往任何时候都更为重要。这样的决策必须基于强大的概念框架，而这样的框架恰好是Cynefin框架。介绍 Cynefin框架的域由其创建者Dave Snowden定义的Cynefin框架本质上是一种具有说服力的模型。首先看一下该图，它看起来像包含2×2矩阵的任何其他分类模型。但是，在分类模型中，框架先于数据。分类模型有利于开发，但对于探索或变更期间却很差。理性决策模型是数据先于框架，而框架本身从数据中形成的社交过程。框架 Synefin框架的领域与疾病 1.简单/显而易见的系统…

IBM徽章和Coursera上的新专业

亚伦·伯登（Aaron Burden）在《 Unsplash》上的“日落时坐在树后面的孩子的剪影” IBM与Coursera合作提供了多种学习途径，以获取技术技能并帮助您认可自己的努力。 IBM很高兴宣布在Coursera上提供IBM Digital Badges 。您可以在Coursera平台上完成任何IBM课程，通过课程结束评估，并有资格获得相应的徽章，其中包含有关您所学技能的可验证数据。如果您过去已成功完成任何IBM Coursera课程，您将收到Coursera的电子邮件通知，其中包含领取徽章的指示。在此处了解有关Coursera的IBM Badge程序的更多信息为了帮助您提高技术领域的技能，IBM还高兴地宣布了一系列有关云和数据科学的新专业：数据科学专业介绍-在数据科学领域开始您的职业或进一步的高级学习。应用数据科学专业化 –获得数据科学职业实践技能。学习Python，分析和可视化数据。…

R包

R是过去十年来发展最快的编程语言之一，并且仍然是Data Scientists的顶级编程选择之一。面向数据科学家的R Packagse 很棒的R包 R封装的新品新的Satatistics R软件包希望对您有所帮助。如果我错过了您认为应该包含在列表中的任何重要软件包。然后将它们发布在评论部分。您的建议将不胜感激。您是否对数据科学，机器学习，深度学习和协作学习抱有相同的热情！继续并在此处填写您的详细信息，我们将把您添加为中等出版物和StepUp Analytics上的作家。写作愉快！当然，…

成为数据科学家的旅程：条目I

杰米·戴维斯（Jamie Davies）在Unsplash上拍摄的照片您好，我叫伊曼纽尔（Emmanuel），我沉迷于数据。是的，我终于加入了俱乐部，“大数据就是未来”或“数据就是新培根”俱乐部。在过去的几个月中，我开始了从金融/经济学背景向成为数据科学家的过渡。关于我自己的一点。我目前是一名债务交易员，并拥有约翰·霍普金斯大学（Johns Hopkins University）的应用经济学硕士学位。我对查看数据，处理数据或解释数据并不陌生。我的硕士课程更注重量化，因此我习惯使用“优化”，“向量”，“线性回归”等术语。最重要的是，经济学教会了我经典的供需概念。从我所看到的，对数据科学家的需求很大，而对数据科学家的需求却非常有限。我的交易背景教会我查看数据并发现有前途且富有成果的趋势。在我看来，数据是新石油，新黄金–数据是新的最重要的商品。什么是优秀的数据科学家？正如“黑客机器学习”的作者兼Alluvium的首席执行官Dan Conway所说的那样-数据是黑客技巧，数学和统计知识以及大量专业知识的结合。…

当精神变成紫色

有时候，我们觉得我们不太在乎我们的日常生活，一切都很快发生。几天前，我尝试从以前的工作中走出另一步，进入我以前没有经验的计算机科学的另一个领域。这是我决定在Nubank申请数据科学和机器学习实习时发生的。一个不只是做数据科学在经历了最近的大多数选择过程之后，我没想到的是有资格进一步晋级。直到有一天收到类似“ 嘿，听着！ ”在我的电子邮件框中。基本上，电子邮件中说我必须进行测试并在14天内完成测试。我的眼睛会闪耀：这次不仅是另一个“ 不” ，这次是我最敬佩的巴西企业出现了新的机会。他们不雇用任何人，主要是在全球范围内寻找A球员。我绝不会失去这个机会。在这次实习期间，学习的可能性将是巨大的。怎么做？但是，有一个问题：我的日常工作很繁琐，而且经常我没有足够的时间去做自己想做的一切。…

星期五链接：数据新闻版

每个人都应该能够使用数据讲出更好的故事。 Nicholas Rougeux摄戈登·麦克雷（Gordon MacRae） Data Stata是每周的新闻通讯，展示记者如何使用分析，可视化和探索来理解数据并讲述更好的故事。每周，我们都会从互联网上获取三个最佳的数据可视化故事（如果网络还没有消失，是否已经死了？也许是在您阅读本文时），然后将它们分为三个部分：可视化，学习，和数据集。我们以所掌握的速度和数量获取和处理信息的能力在我们的文化中根深蒂固，以至于无数次地模糊了我们对真实情况的看法。我们处于一个“忙碌陷阱”中，太多的信息，太多的消息来源以及太多的噪音使好的故事无法传递并获得应有的关注。在Data Stata，我们的目标是将信号与噪声分离，并挑选出最佳的视觉故事，重要的数据集和有用的资源，以学习如何产生更好的数据可视化效果。我们的目标是娱乐和告知信息，让事情变慢一些，并提供有关如何用数据讲述更好的故事的教育课程。…