有关约会,电视节目,民粹主义和学校安全的新DataViz — DataViz每周

数据可视化是表示数据以进行直观,有洞察力的探索的绝佳方式。 我们发现的以下新dataviz作品实际上是证明这一点的好例子。 今天在数据可视化周刊上: 按年龄约会池; 电视节目中的IMDb用户评分; 欧洲民粹主义政党的兴起; 美国学校周围道路上的安全。 https://flowingdata.com/projects/2018/dating-pool/ 根据Wikipedia关于性关系上年龄差异的文章,““ 永不约会年龄在您一半以下的年龄加上7岁的人 ”规则是一种经验法则,有时会用来判断年龄差异是否为社会所接受。” Webcomic xkcd称其为“统计和数据可视化专家Nathan Yau绘制了一个约会对象池根据该规则如何随年龄变化的图表,并增加了美国人口普查局的人口统计数据,以便更加实用。 根据您在性别,就业状况和种族方面寻找的伴侣,找出您的约会池(在美国)达到最高年龄的年龄。 https://www.economist.com/graphic-detail/2018/11/24/tvs-golden-age-is-real 经济学家调查了美国电视是否真的处于一个新的黄金时代。 本周发布的交互式可视化图表显示了1990年以来在美国播出的所有电视剧的平均IMDb用户收视率。在文章的下半部分,您会发现三个静态图表,显示了2004年美国电影/电视剧收视率的分布情况1990年代,2000年代和2010年代。…

机器学习的“第一天”入门

在我的上一篇文章《机器学习的第0天入门》中,我向初学者介绍了机器学习(ML)的一些高级概念,并尽力将Supervised ML幕后的一些方法与我们许多人小时候可能学到的共同技能:学习骑自行车。 现在已经奠定了基础,让我们开始构建结构的其余部分,并深入研究典型工作流程中的流程。 当我们更详细地研究这些过程时,我有时会重新介绍我们以前学习的技能(骑自行车)的各个方面,以继续与我们已经介绍的高级概念进行比较。 最后要注意的一点:该博客主要是针对监督型ML的,但是我将尝试指出其他ML方法之间的流程共同点。 A.数据 在开始下一步工作之前,我们实际上是在需要开始处理一些数据以完全了解我们在流程各个部分中正在做什么的时候。 许多介绍型文章使用的是Iris数据集(Fisher,1936年),这就是我们将在此处使用的内容,因此,让我们从对域视图的数据更好的理解开始。 注意:对于初学者来说,这是整个ML过程中最容易被忽略的步骤之一,对于数据科学初学者来说更是如此。 始终牢记,如果可用,请确保您花时间对数据域进行自我教育(即,数据来自何处?它描述什么?)。 在项目之前了解此类信息将有助于更好地定义解决问题的方式。 根据UCI机器学习库: 这也许是模式识别文献中最著名的数据库。 费舍尔的论文是该领域的经典著作,至今仍被频繁引用。 (例如,请参见Duda&Hart。)数据集包含3类,每类50个实例,其中每个类都涉及一种鸢尾植物。 一类与另一类可线性分离;另一类可线性分离。 后者不能线性分离。 预测的属性:虹膜植物的类别。…

测量音乐家

我要坦白:我有一个秘密的身份。 我的大多数同事白天都以数据分析师的身份认识我,他们使用数字来告知和执行业务决策。 但是到了晚上,我戴着另一个面具,一个艺人。 我的大部分专业时间都花在酒吧,游行和公园上,表演音乐。 我花了足够的时间进行演出,大约一年前,我意识到自己已经忘记了一些我最喜欢的节目。 我决定开始保留一份绩效日志来跟踪所有内容,并很快实现了将我的两个世界结合在一起的机会。 我将日记变成可以记录我的音乐生涯的数据集。 最近,我从马萨诸塞州波士顿搬到了华盛顿州西雅图,结束了我音乐生涯的一章,并开设了另一章。 当我准备从头开始时,我觉得现在是时候探索我的数据集并反思我迄今为止的音乐经验了。 我选择在本文的数据集中使用以下列: 如果您想查看根数据,可以在此处下载CSV。 我在R中执行了所有定量分析,如果您想查看我的工作或继续学习,可以在此处下载我的脚本。 我于2015年11月加入了我在波士顿的第一支专业乐队,期望我能在12月前演出。 因此,我选择2015年12月1日作为我波士顿职业生涯的开始日期。 我于2017年8月18日离开波士顿,以此作为结束日期。 在626天(约1.72年)的这段时间内,我参加了69场演出 。 在2015年任期开始时,我的起步很慢,每17.5天执行一次,但是我的时间表在2016年开始变化,从那时起,我平均每9天进行一次演出。…