什么决定有声读物的等级？小小书 XXshu

Github

2016年，《华尔街日报》写道，有声读物是出版业中增长最快的格式。为了理解出版行业的这一部分，我分析了英语有声读物，以确定有声读物的总体评价是由配音演员的表演还是由故事决定的。数据来自2016年抓取的Audible.com网站。

Audible.com是一家技术公司，负责生产，销售和销售有声读物。 Audible的有声读物可以通过其在线平台购买，也可以通过其专有应用流式传输或下载。 Audible成立于1995年，并于2008年被亚马逊以3亿美元的价格收购。Audible的英语语言图书馆拥有超过20万本有声读物。相对悠久的历史和广泛的目录使Audible成为理解有声读物的良好数据来源。

使用Scrapy Web抓取框架，我从Audible网站上收集了2016年1月可用的所有英语有声读物上的数据。从页面收集的数据如下所示。

刮板设置为从列出链接有声读物的第一页开始。每个有声书链接都被跟踪，并且数据被下载并返回到原始页面。使用递归跟踪到下一页的链接，直到到达最后一页。使用此过程，生成了约203,000张有声读物的表。其中，约有42,000本有声读物从未得到审查。有数百个仅具有总体评价，而没有故事或表演评级的分数。带有评论的图表仅包含具有完整评论的书籍，而包含用于表征数据的图表的整个数据集则包括在内。

总评分，表现评分和故事评分的分布如下所示。有声读物对所有类别的最常见评价是4。第二常见的是性能评分为5，总体评分为4到5。这些表明等级之间的分配不均，在较低等级之间不经常给出。因此，大多数定级的书本应偏高。由于人们通常不购买书籍，因此他们并不希望享受书籍，这并不奇怪。

每本书的评分数量在1处出现了一个尖峰。在Audible的〜150,000本书中，大多数具有单一评分。每本书的评分很少，这说明了为什么评分分布（以上）在整数值处具有很强的峰值。请注意，为清楚起见，评级分布（如下）会删除所有超过1500的评级。

书籍的长度可能非常重要，较长的书籍可能会被评为较低，因为它们的销售频率较低。我画出了总体评级的密度与长度（以分钟为单位）的关系（下图），其中排除了异常值（平均长度有2个标准差）。从图中可以很容易地看出，较长的书籍的评分不低于较短的书籍。这种趋势是相反的，较长的书比短的书具有更高的评价。

我们可以使用密度图检查这些变量之间的关系，从而将总体评级与性能评级和故事评级进行比较。如下所示，这些变量之间存在非常明显的线性关系。这种相关性表明故事和表演都与整体评分相关。这可以通过皮尔逊相关系数，整体表现0.81和整体故事0.88来确认。可以暂时得出结论，虽然两者都很重要，但故事与总分之间的关联度更高，因此也就越重要。

为了进一步探讨结果的有效性，我检查了表演与故事评级之间的相关性。此值也显示出很强的线性关系，并且具有0.78的高相关系数。这种相关性表明，由于一个变量可以确定另一个变量，因此无法基于与表演或故事的相关性做出确定的确定。

要了解哪个更重要，我们需要考虑一种情况，其中一种保持不变，而另一种可以变化。一种方法是查找具有多个讲述人的书籍。这些书中的故事没有改变，但叙述者不同。我浏览了158本书，其中有多个叙述者。这些书籍的整体，故事和表演评分几乎与每本书相同， 但仅随着叙述者的不同而不同。 仅有少数情况使评级出现分歧。从这些数据可以得出结论，故事的感知是由表演决定的，表演等级决定了整体和故事的等级 。作家应仔细考虑谁是叙事者，以确保他们的故事对故事应有的评价，甚至超过其应有的评价。但是，由于糟糕的故事可能没有多个叙述者，因此很难确定叙述者对medicore故事的影响。

刮擦的代码在Github上可用。随意自己刮一下，让我们知道结果！