角色多久聊天一次？小小书 XXshu

从一开始，我就希望将文本和字母合并到我的图形中，因为它们的纹理丰富并且与项目具有明显的相关性。我草绘了一些有关如何显示数据的想法，并集思广益回答问题。

资料问题

一旦我收集了文本，弄清楚对话的比例就比我想象的要难。计算对话单词的最简单方法是使用引号作为指导。当然，并非引号内的所有内容都是对话（例如，当谈论“特定”事物时），但是当时我还没有办法排除那些使用不规则引号的时刻。我仍然是Python的新手，因此我争取了丈夫Derek的帮助来协作编写脚本以解析文本。我们编写的代码在看到引号时开始对单词进行计数，然后在遇到另一个标记时就停止计数，如下所示（彩色单词被视为对话单词）：

这非常有效，直到我意识到如果有一个角色讲的段落多于一个段落，或者大声朗读带有多个段落或节的字母或诗歌，则代码将无法正常工作，例如：

在这种情况下，信件正文末尾没有引号引起了我们计数系统的失败。我们提出了一个解决方案。当遇到不带引号结尾的文本段落（但仍被认为是对话）时，代码会计算一个段落中有多少个引号，如果为奇数，则会在引号的末尾添加一个引号在计算对话单词数之前的段落。像这样：

运行脚本后，我将每本书的会话单词计数和总单词计数放入电子表格中，在其中添加有关该书出版时间以及作者姓名，国籍和性别的数据。

事实证明这是一个丰富的数据集。我一直在寻找新的问题，例如：女性在小说中的对话比男性多吗？是否有一段时间流行编写一定比例的文字？为儿童写的书或多或少充满对话吗？最后，我将重点放在比较对话的比例和书籍的长度以及回答：作者是否倾向于在所有书籍中都写相同比例的对话？顶级经典书籍的出版日期分布如何？而且，某些国家/地区是否倾向于在其书籍中进行一定比例的对话？