数据科学 – 第13页小小书 XXshu

如何获得正确的数据技能

在这篇文章中，我想谈一谈我们所有人在数据中寻找自己的位置并建立自己的职业生涯。当我说“数据”时，我指的是分析，数据科学，商业智能等。在上一篇文章中，我谈到了结识新朋友并建立个人网站的内容-如果您尚未阅读，请回到该网站。今天，您将听到一个重复出现的主题，即：立即开始。这意味着获得技能，加入社区，找到志趣相投的人……并了解一切将您带到了哪里。过一会儿，我将写一篇关于如何展示自己的技能并使用数据来实际产生影响的文章。但是在此之前，我们需要谈论提高您的技能-这意味着从您拥有的一切开始，坐下来思考自己所缺乏的技能，但很快就会掌握。这些技能不必全部与算法和编程语言有关。他们可以是任何东西。为什么要学习新技能？因为在数据中，事物的变化比许多其他行业的变化快，所以您始终必须掌握一切。如果您是初学者，并且认为您可能缺少一些核心技能，请查看本文数据科学家-核心技能。如果您要进行报告，那么该是时候提高您的数据讲故事技能了。目前市场上最热门的东西之一是称为Tableau的数据可视化工具。我正在提供免费的Tableau认证挑战，让您在短短几个小时内为考试做准备。您可以注册。许多数据人缺乏专门知识的另一重要方面是数据科学的人文方面。沟通和表达能力是如此重要。…

自己进行信息可视化教学

自己教信息可视化：平行坐标继上一篇文章之后，我在这里介绍有关如何教授信息可视化的工作。这项工作发表在ACM CHI 2016上，标题为：“使用平行坐标可视化对在线学习方法进行比较评估”。可视化已成为许多数据探索应用程序的基本组成部分。许多人想学习如何通过不同的媒体（如教科书，网页和视频）阅读，理解和使用陌生的数据可视化。除了传统方法之外，许多渴望学习新技能的人也喜欢Duolingo这样的自学教程。这样的交互式教程对于可视化学习者会有所帮助。我们的主要问题是用户使用的不同媒体之间的学习结果（例如，考试成绩）是否存在差异。我们使用众包方法创建和测试了以下媒体：1）基线（即，无教程），2）静态教程，3）视频教程和4）交互式教程。我们学习的目标可视化是平行坐标。结果表明，参加4）交互式教程的参与者比参加1）基线和2）静态的参与者得分更高，并且报告说，与参加2）静态的参与者相比，他们的参与度更高。在交互式教程中，我们按照体验式学习方法实施了各种活动-“边做边学”。通过设计一系列交互式活动，我们试图帮助用户提高理解和使用平行坐标进行各种分析的技能。任务。在TIVY（交互式教程）上，用户跨轴连接点以匹配表上的数据点。我最近重新发布了4）交互式教程TIVY的修改版，以便您可以尝试学习活动并参加测试。请看一下并尝试网站以学习平行坐标：自己教信息可视化：平行坐标…

到目前为止，我已经完成了这项挑战-贝塔斯曼Udacity数据科学奖学金

这是一个非常酷的挑战！不太容易，也不太困难，但是我必须教自己要坚持这个在线课程，并尽可能多地学习。是的挑战完成！我很高兴有其他学生努力完成这一挑战，许多学生共享了很多资源。对我来说最有用的一些：论坛。在Udacity，这些论坛真的很有帮助！在帮助其他人的疑惑以及分享自己的疑惑的同时，我学到了很多东西松弛。虽然，与成千上万的人共享许多闲置频道很疯狂。我发现了一些有趣的博客和教程，它们可以帮助您进一步了解数据科学以及与朋友共享摘要的其他创造性方法。我最喜欢的一些频道：初学者DS，企业家精神，DS中的女性，比利时频道，模因，动力，问答，ufff…等等 Facebook / WhatsApp组。…

我应该学习物联网吗？

根据Gartner的数据，到2020年将有204亿个设备启用IoT 。这几乎是2017年已连接设备的4倍。这些大量设备将需要大量在IoT和相关技术方面具有专业知识的员工。我认为，只要搜索在LinkedIn（全球最大的专业网络）中列出的IoT职位，您的答案就会接近11,000 。这似乎是一个很小的数字，这是因为物联网工作需要特定的技能。您可以在此处找到准备好物联网的内容吗？你需要的5种技能。几天前，我在Quora中遇到了这个问题，并开始思考它。出于以下原因，我建议新手来学习IoT。数据科学和机器学习热潮您知道可穿戴设备，语音助手，工业自动化和自动驾驶汽车如何将这些流行语转变为最具革命性的下一代技术之一，并且无疑将产生比IoT更大的工作机会。但是，您对物联网（作为这些数十亿美元行业的数据积累主干）的了解不多，将在您决定探索和开展这些工作时为您提供优势。图片来源：Google 开发与整合优势由于将部署大量设备，因此您可以在上图中看到IoT的各种元素，因此需要网络安全，Web应用程序集成和Cloud Infrastructure设置，这将需要您具备以下非常重要的先决条件： M2M通信协议将如何工作。我的意思是说，如果您正在开发某些物联网产品，而不是在机器或嵌入式本身上，那么物联网开发知识的其他方面将为您提供与团队合作的巨大先机。…

数据科学家应该知道的10个Python库

Python库是功能的集合，它使我们能够执行许多动作而无需每次都编写大量代码。 Python是一种开放源代码的高级编程语言，它随库或软件包一起提供用于不同目的，例如数据清理，数据整理等。在开始使用Python for Data Science之前，应该了解10个Python库。 Numpy是Python中用于执行科学计算的基本库。它还为我们提供了各种数学和数据处理功能。 Numpy提供以下功能： · N维数组对象，用于存储数据 ·数学函数 ·集成C / C ++和Fortran代码的工具 ·它提供有用的线性代数，傅立叶变换和随机数函数/方法。 Pandas是Python的开源数据分析库。…

我的数据之旅-第2单元：线性回归

指挥官和指挥官指挥官兰斯·阿韦斯（Lancéesavec R），在途中倒放总理的模型。警告：“首字母缩写词和词汇”（英语）àgogo dans cetteunité。丹麦国家元首，法国电影艺术奖和法国无锡音乐学院奖，以及法国无国界医生组织的双重证明（ça，çasemérite！）。普林斯顿大学专业教育学硕士奥利·阿森费尔特（L’étudese base les les sur les travaux d’Orley Ashenfelter）。詹妮·佩恩（Jen Nes）赞扬了法西斯（Pésla…

在10分钟内学习任何数据科学概念

有效地填补停机时间，以学习技术概念。这是最糟糕的感觉之一：无事可做，但没有足够的时间去做任何事情。无论是等待医生的约会还是坐在无事可做的火车上，我一直想利用这小段的停机时间来做一些富有成效的事情。当跳入数据科学等新领域时，有太多东西要学习，而没有时间去做。如果您有10分钟的时间并且想学习一个主题，那么花费时间的最佳方法是什么？在本文中，我将概述如何在短时间内有效地学习数据科学中的主题。目的是回答有关该主题的一些基本问题，并了解下一步应该做什么。我将继续介绍t-SNE的示例模板。确定基线和问题-2分钟潜水之前，请退后一步，看看您是否已经了解该主题。考虑提到主题和相关内容的上下文。这可能会提供有用的动力或应用，并且将思想联系起来对于学习非常重要。接下来，列出要回答的三个或四个最重要的问题。这些可以是广泛的，特定的或混合的。考虑考虑您为什么选择此主题，以及您希望能够回答的基本问题。以下是t-SNE的这两个步骤的示例：基线：我想我听说过有关减维的t-SNE…

供萌芽的数据科学家阅读的10本机器学习书籍

机器学习和人工智能是令人兴奋的领域，并且我们已经在这些主题上写了两年了。虽然我们在博客上谈论的很多内容都是机器学习的高级实现，并且对于初学者来说可能是不知所措，但实际上，机器学习的核心概念非常容易掌握。在线上有很多资源和备忘单，但是我们认为老式的学习方法有时是最好的：拥有一本好书。很少有资源能够匹配一本好书的深入，全面的细节。在此博客中，我们列出了一些最流行的书籍，适合初学者或对机器学习感兴趣的人使用。但是，尽管这些书将为您提供有关主题和理论的良好概述，但您也无法超越实践。查看我们关于在线或南非提供的课程的博客，为您的机器学习曲线增加一些实践经验和课程。统计学习的要素：数据挖掘，推理和预测，第二版作者：Trevor Hastie，Robert Tibshirani和Jerome Friedman 本书在一个通用的概念框架中描述了医学，生物学，金融和市场营销等各个领域的关键思想。尽管该方法是统计方法，但重点是概念而不是数学。大量使用彩色图形给出了示例。对于统计学家和对科学或工业中的数据挖掘感兴趣的任何人来说，它都是宝贵的资源。本书涵盖范围广泛，从监督学习（预测）到无监督学习。许多主题包括神经网络，支持向量机，分类树和Boosting-这是本书中对该主题的第一个全面处理。…

理论上的定量文学分析

这篇博客文章将提供一些有关我的博士研究的方法论的注释。在完成我的研究项目时，我将在一个共识网络中对640部小说和短篇小说集进行建模，以便通过定性和定量手段来预测现代主义文学风格的潜在定义。在充裕的时间里，我将对RPubs和Github进行全面而可复制的介绍，目前此概述是必须要做的。文学的定量分析有着悠久的历史。自六十年代和七十年代的文化转折以来，当女权主义，酷儿主义和批判种族理论的政治反叛主义日益流行时，“风格”的概念，即可以从文本中工具性地提取出来的一些精髓，变得越来越多了。站不住脚的。在英美文学系中，语境成为理解文学的主要手段。确实，这个主意似乎使人想起了十九世纪的美好时光。计算性文学批评出于必要，以更为务实的态度对待文学材料。填写电子表格时，需要将内容输入到单元格中，并且在这些术语之外没有可能进行定量的真正对话。这与当代文学研究形成了鲜明的对比，在现代文学研究中，人们可以很高兴地就文本没有说的内容进行长时间而深入的讨论。自从新的现代主义研究和新维多利亚主义灌输了最近的发展以来，它们将各自研究对象的时空限制扩展到了今天，远远超过了过去，超越了伦敦，纽约和巴黎的大都市。为了从各自的现代性或殖民主义问题中解开各自类别的隐含价值判断，这两个立场变得更加两极化。这使定量的文学评论家陷入了困境。尽管一些激进的倡导者声称，将计算逻辑应用于文学材料代表着一种确定的范式转变，整个学科都应更多地考虑这一转变，但他们的认识论保守主义常常反映在他们的政治保守主义中。样式作为可量化特征的组合似乎是对正式能力的非批判性庆祝的基础，并且被有趣地理解为“第三种方式”知识生产的示例，以及对以政治为导向的文化批评的强烈反对。我认为，陷入逆向思维模式无疑是进行此类分析的风险，但这不是必须的，并且网络将文本视为嵌入更广泛的生态系统中的能力提供了可能性将新的现代主义研究领域与定量文学批评进行对话的过程。可以说，对文学的定量分析可以追溯到僧侣们最初设计《圣经》的手动合页时。每个数字人文主义者都会熟悉Roberto…

我通过Python进行情感检测中学到了什么

作为2017年9月23日至24日在巴丹举行的Tech Caravan的一部分，我被要求发表有关实用机器学习的演讲。我决定创建一个情感检测程序，例如Microsoft的Emotion API。它接受上面带有面孔的图像，猜测脸上的情绪，然后将其打印在控制台上。我所构建的内容能够获得〜75％的准确性。在这个故事中，我将谈论在构建情感检测程序时学到的东西，因此我将不详细介绍其构建方式。请查看幻灯片的链接和底部的代码。如果有人以前做过，那是可行的当我第一次同意进行演讲时，我不知道如何构建情绪检测程序，但是我认为如果有人能够做到，那么我可能会做到。它可能不尽如人意，但却是可行的，而这正是我所做的。我的准确率大约为75％，这还不错。找到好的功能我认为除了眼睛，眉毛和嘴唇的线条长度和角度之外，我还可以尝试找到更好的功能来解决此问题，但是我受时间的限制，没有时间来提取更好的功能。都是关于数据的如果您的数据很糟糕，那么您的机器学习算法将毫无意义。您应该获得很多彼此不同（多种）的数据（卷）。这样，模型就不会过拟合，并且可以预测从未见过的数据。数据也应正确处理。…