Github
2016年,《华尔街日报》写道,有声读物是出版业中增长最快的格式。 为了理解出版行业的这一部分,我分析了英语有声读物,以确定有声读物的总体评价是由配音演员的表演还是由故事决定的。 数据来自2016年抓取的Audible.com网站。
Audible.com是一家技术公司,负责生产,销售和销售有声读物。 Audible的有声读物可以通过其在线平台购买,也可以通过其专有应用流式传输或下载。 Audible成立于1995年,并于2008年被亚马逊以3亿美元的价格收购。Audible的英语语言图书馆拥有超过20万本有声读物。 相对悠久的历史和广泛的目录使Audible成为理解有声读物的良好数据来源。
使用Scrapy Web抓取框架,我从Audible网站上收集了2016年1月可用的所有英语有声读物上的数据。从页面收集的数据如下所示。

刮板设置为从列出链接有声读物的第一页开始。 每个有声书链接都被跟踪,并且数据被下载并返回到原始页面。 使用递归跟踪到下一页的链接,直到到达最后一页。 使用此过程,生成了约203,000张有声读物的表。 其中,约有42,000本有声读物从未得到审查。 有数百个仅具有总体评价,而没有故事或表演评级的分数。 带有评论的图表仅包含具有完整评论的书籍,而包含用于表征数据的图表的整个数据集则包括在内。
总评分,表现评分和故事评分的分布如下所示。 有声读物对所有类别的最常见评价是4。 第二常见的是性能评分为5,总体评分为4到5。 这些表明等级之间的分配不均,在较低等级之间不经常给出。 因此,大多数定级的书本应偏高。 由于人们通常不购买书籍,因此他们并不希望享受书籍,这并不奇怪。

每本书的评分数量在1处出现了一个尖峰。在Audible的〜150,000本书中,大多数具有单一评分。 每本书的评分很少,这说明了为什么评分分布(以上)在整数值处具有很强的峰值。 请注意,为清楚起见,评级分布(如下)会删除所有超过1500的评级。

书籍的长度可能非常重要,较长的书籍可能会被评为较低,因为它们的销售频率较低。 我画出了总体评级的密度与长度(以分钟为单位)的关系(下图),其中排除了异常值(平均长度有2个标准差)。 从图中可以很容易地看出,较长的书籍的评分不低于较短的书籍。 这种趋势是相反的,较长的书比短的书具有更高的评价。

我们可以使用密度图检查这些变量之间的关系,从而将总体评级与性能评级和故事评级进行比较。 如下所示,这些变量之间存在非常明显的线性关系。 这种相关性表明故事和表演都与整体评分相关。 这可以通过皮尔逊相关系数,整体表现0.81和整体故事0.88来确认。 可以暂时得出结论,虽然两者都很重要,但故事与总分之间的关联度更高,因此也就越重要。


为了进一步探讨结果的有效性,我检查了表演与故事评级之间的相关性。 此值也显示出很强的线性关系,并且具有0.78的高相关系数。 这种相关性表明,由于一个变量可以确定另一个变量,因此无法基于与表演或故事的相关性做出确定的确定。

要了解哪个更重要,我们需要考虑一种情况,其中一种保持不变,而另一种可以变化。 一种方法是查找具有多个讲述人的书籍。 这些书中的故事没有改变,但叙述者不同。 我浏览了158本书,其中有多个叙述者。 这些书籍的整体,故事和表演评分几乎与每本书相同, 但仅随着叙述者的不同而不同。 仅有少数情况使评级出现分歧。 从这些数据可以得出结论,故事的感知是由表演决定的,表演等级决定了整体和故事的等级 。 作家应仔细考虑谁是叙事者,以确保他们的故事对故事应有的评价,甚至超过其应有的评价。 但是,由于糟糕的故事可能没有多个叙述者,因此很难确定叙述者对medicore故事的影响。
刮擦的代码在Github上可用。 随意自己刮一下,让我们知道结果!