数据科学 – 第23页小小书 XXshu

目标设定：UQR2215

本文将是简短的文章-我受命为上述课程制定一些目标，然后我将与我的教授进行磋商并讨论如何实现这一目标。能够严格评估数据并询问数据集正确问题的能力作为业务分析专业的我，我是一个专门从事数据分析的人，从数据处理，数据科学到数据可视化。说我注定要成为数据向导的人是没有错的。但是，我课程中缺少的一个关键要素是能够进行批判性思考并提出问题来询问数据。数据科学家的工作是提出正确的问题—来自纽约的数据科学家希拉里·曼森（Hilary Manson） 2.评估从数据集中获得的见解-是否有意义？这是我研究数据历史并从中获得见解时遇到的一个有趣故事。 [1] 回到第二次世界大战时，美国正试图利用其数学能力赢得战争，在那里建立了一个名为“统计研究小组”（SRG）的“战时”组织。它类似于曼哈顿计划，所开发的武器只是方程式，而不是爆炸物。提出了携带弹药类型的建议，海军飞机将承担指定的载荷。全部由统计数据驱动。他们苦苦挣扎的一个问题是，哪里是装甲飞机的最佳地点。装甲很沉；太多，一架飞机会减速。太少了，一架飞机很容易被摧毁。…

如何将Jupyter Notebook发布到Medium？

在软件工程师中间， Medium似乎很受欢迎， Jupyter是数据科学工程师必备的工具之一。因此，很明显，应该有一种简单而流行的方法将知识从Jupyter Notebook转移到Medium。但… …我还没看见🙁 我努力了 [x]导入发布到NbViwer的jupyter笔记本。 http://nbviewer.jupyter.org/github/hyzhak/titanic-for-beginners/blob/master/notebook.ipynb，它因错误而失败 [x]嵌入来自第三方网站的内容 Jupyter笔记本查看器看看这款Jupyter笔记本！ nbviewer.jupyter.org 我会尝试 []将Jupyter笔记本导出为html并尝试将其导入。 []将Jupyter笔记本导出为pdf并在此处导入。 []尝试http://nbconvert.readthedocs.io/en/latest/…

FIFA 19数据集-足球经理的数据科学？

介绍成为一名足球经理并非易事。要成为一名成功的足球经理，您必须具备许多属性。战术，人的管理和决策是任何足球经理应具备的三个最重要的素质。如今，技术被用来针对另一支球队提出战术。人力资源管理取决于个人经理的管理和领导技巧。但我想详细介绍决策技巧，以及数据科学如何轻松地协助经理制定决策。该博客将回答来自Kaggle的FIFA 19球员数据集的一些探索性问题。该数据集包含著名足球视频游戏FIFA 19中的每个球员。该数据集具有80多个属性，包括姓名，年龄，国籍，照片，俱乐部，工资，价值等球员个人数据，还包含球员的个人资料。位置数据，这些属性基于最新EA FIFA 19游戏的实际数据，包括所有球员风格的统计信息，例如盘带，侵略，GK技能等。 data.csv-此文件是完整的数据集，包含有关玩家属性，个人数据和排名的所有信息。对于此项目，我将使用data.csv文件。数据集具有18207行和89列。作为足球迷和电子游戏爱好者，我踢过足球，看了很多足球。…

快速数据科学出版物的标记

本杰明·本福特（Benjamin Bengfort）图片来源：https：//atom.io/packages/markdown-preview 科学的中心课程是，要理解复杂的问题（甚至是简单的问题），我们必须努力解放教条的思想，并保证发表，矛盾和试验的自由。卡尔·萨根（Carl Sagan）：《千亿万：千禧年边缘的生死思潮》作为数据科学家，很容易陷入细节。我们正忙于实现Python和R代码以从数据中提取有价值的见解，训练有效的机器学习模型或将分布式计算系统整合在一起。这些任务中的许多任务，特别是与数据摄取或争用有关的任务，虽然很费时，但却是数据科学家日常工作的基础。但是，我们经常忘记的是，我们不仅必须是数据工程师，而且还必须是数据科学知识体系的贡献者。如果数据产品从数据中获取价值并生成更多数据作为回报，那么数据科学家将从先前发表的作品中获取其价值，并应生成更多出版物。确实，机器学习无处不在的原因之一（请参阅与Stack on Overflow上的ML相关的许多带有Python标签的问题）是由于科学研究的精心撰写的博客文章和工具（例如Scikit-Learn）而得以快速实施的。各种算法。尤其是Google，通过发布有关其方法论的系统论文来推动数据产品的增长，从而能够创建诸如Hadoop和Word2Vec之类的开源工具。通过为软件和建模建立坚实的基础，我们能够更快地获得更大的结果。探索，讨论，批评和实验都使我们能够通过利用数据社区的集体才智来拥有新思路，编写更好的代码并实现更好的系统。…

什么决定有声读物的等级？

Github 2016年，《华尔街日报》写道，有声读物是出版业中增长最快的格式。为了理解出版行业的这一部分，我分析了英语有声读物，以确定有声读物的总体评价是由配音演员的表演还是由故事决定的。数据来自2016年抓取的Audible.com网站。 Audible.com是一家技术公司，负责生产，销售和销售有声读物。 Audible的有声读物可以通过其在线平台购买，也可以通过其专有应用流式传输或下载。 Audible成立于1995年，并于2008年被亚马逊以3亿美元的价格收购。Audible的英语语言图书馆拥有超过20万本有声读物。相对悠久的历史和广泛的目录使Audible成为理解有声读物的良好数据来源。使用Scrapy Web抓取框架，我从Audible网站上收集了2016年1月可用的所有英语有声读物上的数据。从页面收集的数据如下所示。从可听书本页面抓取的数据。框显示哪些数据已记录。刮板设置为从列出链接有声读物的第一页开始。每个有声书链接都被跟踪，并且数据被下载并返回到原始页面。使用递归跟踪到下一页的链接，直到到达最后一页。使用此过程，生成了约203,000张有声读物的表。其中，约有42,000本有声读物从未得到审查。有数百个仅具有总体评价，而没有故事或表演评级的分数。…

赌自己，并在这样做的同时获得乐趣

最近，我决定在已建立的社交网络平台上尝试一些东西。称它为社交实验或其他对您来说更合适的实验，目的是描述积极参与其中的用户类型。该社交网络目前是我为之自豪的公司Microsoft的一部分，因此，我显然在写有关LinkedIn的文章。不，请不要急于下结论，我不是在写有关LinkedIn的文章。这仅仅是达到目的的一种手段，但是我们会尽快达到目标。本文的目的也不是讨论我将要提到的技术的技术细节。我们很快就会在我目前从事的未来职位中谈到这一点。之所以？请继续阅读，因为这是一个很好的问题。此文件在知识共享CC0 1.0通用公共领域专用声明下可用。那是2017年9月的最后一周，微软发布了许多好东西，尤其是围绕Microsoft Azure和丰富已经强大的Cloud平台的新功能和服务。这是在Microsoft Ignite期间发生的，Microsoft Ignite是Microsoft最大的场所之一，聚集了成千上万渴望了解新技术的人们，而这些新技术最终将成为企业变革和拥抱未来的趋势。在这一周的漫长时间内，Microsoft确实宣布Microsoft Azure具有新徽标-它确实存在，并且看起来令人赞叹。…

我敢说你永远不会再使用tf-idf

朱莉娅·席尔格（Julia Silge）是天体物理学家，R大师和美丽图表的制造者，她是一位数据科学家，从任何角度来看，它们似乎都是舒适快乐的猫，他们团结了存在的最美好的祝福。并且生活在这个世界上几乎没有什么让她烦恼或烦恼的。我向你保证，亲爱的读者，让这样的灵魂烦恼不会令人感到高兴。但是，我怀疑TF-IDF先生向她（和她，他！）展示的所有款待和友善对可怜的茱莉亚有危险。如果她不注意的话，我担心她可能会被要求永远沉下去。因为尽管她认为TF-IDF先生的陪伴非常愉快，但我确信这场比赛很少推荐。乌夫，好吧，这很累。我回到自己的声音，而不是尝试简·奥斯丁的。你好这篇文章对从事文本分析的人们可能有用，也许对于简·奥斯丁的粉丝们来说很有趣，他们想知道哪本小说是简·奥斯丁在她最接近奥斯丁的那一本书，以及她的先驱者/同时代人与她的风格最相似。老实说，整个文章的主要对象是：茱莉亚·席尔格（Julia Silge），我很欣赏他的作品。她和戴维·罗宾逊（David Robinson）最近在一本有关文本挖掘的书中放了许多有用的R代码和解释。这篇文章基本上是我和我交换的一些推文的后续。如果您喜欢这里和/或Julia和David的书中的内容，您可能还想使用我在食物评论中探索的方法来检查Jason Kessler的github和Dan Jurafsky等人的东西。…

图书馆员走进蟒蛇。

图片由Torkild Retvedt通过Flickr CC拍摄在八月份开始新的库工作之前，我有一个模糊的计划来“学习一些Python”。它变得有点复杂。我的想法是学习一些Python编码技能，以自动化我在开放数据和数据新闻学领域的工作。有很多现成的工具可用于各种类型的Web数据收集，但是我发现自己想以某种不完全适合即用型解决方案的方式对某些数据过程进行自动化处理。我要抓取的网站格式过于不一致。或者，我想对多个不同结果集的数据进行标准化，而无需花费3个月的时间。或者，我需要一个对于预先构建的解决方案来说有点太大（或者太小或太……某物）的数据集。（尽管运行Chrome的适用于Google Sheets的Twitter存档器在“ covfefe”和其他单数关键字时代是一个旅行。）我可以自己学习，对吧？也许还学到了很多东西，所以我可以在秋季的数据素养研讨会上教一些研究本科生？在图书馆的在线世界工作了一段时间后，我有了一点编程经验。但是自从我开始学习全新事物已经过去了一段时间。但是我可以做到。…

客户建议-基于内容

基本术语词频（TF） TF只是文档中单词的出现频率。其中x表示文档d的值，项目t的值。反文档频率（IDF） IDF是整个文档集中文档频率的倒数。其中N表示文档数量， DF表示其中我们看到此项t出现的文档数量。特遣部队使用TF-IDF的主要原因是两个原因：假设我们在Google上搜索“分析的兴起” 。可以肯定的是，“ the”的出现频率要比“ analytics”高，但分析的相对重要性高于搜索查询的观点。案例1 — TF-IDF 原始数据如下，我们按照三个步骤来计算余弦相似度。…