从一开始,我就希望将文本和字母合并到我的图形中,因为它们的纹理丰富并且与项目具有明显的相关性。 我草绘了一些有关如何显示数据的想法,并集思广益回答问题。
资料问题
一旦我收集了文本,弄清楚对话的比例就比我想象的要难。 计算对话单词的最简单方法是使用引号作为指导。 当然,并非引号内的所有内容都是对话(例如,当谈论“特定”事物时),但是当时我还没有办法排除那些使用不规则引号的时刻。 我仍然是Python的新手,因此我争取了丈夫Derek的帮助来协作编写脚本以解析文本。 我们编写的代码在看到引号时开始对单词进行计数,然后在遇到另一个标记时就停止计数,如下所示(彩色单词被视为对话单词):

这非常有效,直到我意识到如果有一个角色讲的段落多于一个段落,或者大声朗读带有多个段落或节的字母或诗歌,则代码将无法正常工作,例如:

在这种情况下,信件正文末尾没有引号引起了我们计数系统的失败。 我们提出了一个解决方案。 当遇到不带引号结尾的文本段落(但仍被认为是对话)时,代码会计算一个段落中有多少个引号,如果为奇数,则会在引号的末尾添加一个引号在计算对话单词数之前的段落。 像这样:

运行脚本后,我将每本书的会话单词计数和总单词计数放入电子表格中,在其中添加有关该书出版时间以及作者姓名,国籍和性别的数据。

事实证明这是一个丰富的数据集。 我一直在寻找新的问题,例如:女性在小说中的对话比男性多吗? 是否有一段时间流行编写一定比例的文字? 为儿童写的书或多或少充满对话吗? 最后,我将重点放在比较对话的比例和书籍的长度以及回答:作者是否倾向于在所有书籍中都写相同比例的对话? 顶级经典书籍的出版日期分布如何? 而且,某些国家/地区是否倾向于在其书籍中进行一定比例的对话?
在准备好数据之后(最后!),我开始尝试并尝试使用尽可能多的想法进行处理。