理论上的定量文学分析小小书 XXshu

这篇博客文章将提供一些有关我的博士研究的方法论的注释。在完成我的研究项目时，我将在一个共识网络中对640部小说和短篇小说集进行建模，以便通过定性和定量手段来预测现代主义文学风格的潜在定义。在充裕的时间里，我将对RPubs和Github进行全面而可复制的介绍，目前此概述是必须要做的。

文学的定量分析有着悠久的历史。自六十年代和七十年代的文化转折以来，当女权主义，酷儿主义和批判种族理论的政治反叛主义日益流行时，“风格”的概念，即可以从文本中工具性地提取出来的一些精髓，变得越来越多了。站不住脚的。在英美文学系中，语境成为理解文学的主要手段。确实，这个主意似乎使人想起了十九世纪的美好时光 。

计算性文学批评出于必要，以更为务实的态度对待文学材料。填写电子表格时，需要将内容输入到单元格中，并且在这些术语之外没有可能进行定量的真正对话。这与当代文学研究形成了鲜明的对比，在现代文学研究中，人们可以很高兴地就文本没有说的内容进行长时间而深入的讨论。自从新的现代主义研究和新维多利亚主义灌输了最近的发展以来，它们将各自研究对象的时空限制扩展到了今天，远远超过了过去，超越了伦敦，纽约和巴黎的大都市。为了从各自的现代性或殖民主义问题中解开各自类别的隐含价值判断，这两个立场变得更加两极化。

这使定量的文学评论家陷入了困境。尽管一些激进的倡导者声称，将计算逻辑应用于文学材料代表着一种确定的范式转变，整个学科都应更多地考虑这一转变，但他们的认识论保守主义常常反映在他们的政治保守主义中。样式作为可量化特征的组合似乎是对正式能力的非批判性庆祝的基础，并且被有趣地理解为“第三种方式”知识生产的示例，以及对以政治为导向的文化批评的强烈反对。

我认为，陷入逆向思维模式无疑是进行此类分析的风险，但这不是必须的，并且网络将文本视为嵌入更广泛的生态系统中的能力提供了可能性将新的现代主义研究领域与定量文学批评进行对话的过程。

可以说，对文学的定量分析可以追溯到僧侣们最初设计《圣经》的手动合页时。每个数字人文主义者都会熟悉Roberto Busa的作品，但是与大型数字人文学科相比，文学统计分析的历史是一个更加分散的现象。我能找到的最早的例子是路易斯·汤科·米里克（Louis Tonko Milic）于1967年出版的《乔纳森·斯威夫特风格的量化方法》 。计算以揭示真实的文学作品，从而绕过印象派，而印象派是其他领域内风格评估的特征。不幸的是，文学评论家并不是以其掌握统计数据而闻名，而米利克倾向于在不评估其重要性的情况下重现一页或几页表格的趋势，例如对学生进行t检验是有症状的。许多最早的数字人文科学期刊只是简单地以二进制形式复制原始数据，并根据其视觉印象而不是数学发现来推进解释。

基于文本词汇量的丰富度（唯一单词数/总单词数），hapax丰富度（文本中出现一次的单词数/总单词数）或平均句子长度来进行分析的发展，单词长度表示这种方法的改进，但幅度不大。这些可能被理解为风格的索引，但是像以前一样，它们被放置在桌子上并且经常以与文学评论家通常相同的方式“阅读”。没有系统地尝试评估更广泛语料库中的句子长度，也没有建立任何基准来评估显着差异。

澳大利亚文学评论家JF伯罗斯（JF Burrows）对文学产生了可复制的结果进行了首次定量分析。他的Delta方法并非着眼于文学评论家通常关注的更令人回味或更长的单词，而是旨在通过量化高频术语（例如“ the”，“ an”，“一个”，“和”或“表示”。 Burrows的原始方法仅使用前150个最常用词（MFW），但随后的分析表明，成功的作者身份归属一直增加到5000 MFW。实际上，所分析的这些词越多越好。

这就给我们带来了一个问题，即我们以何种规模分析文本。埃德哈斯（Ederhas）指出，分析不同比例的单词会广播不同的风格信号，并且它们之间的变化量会令人不满意。我在分析单个单词而不是三位一体的单词（“男人”，“她说”，“在那边”），三位一体（“她也说过”，“在……旁”）时已经注意到了这种现象甚至是单个字符的级别（“ th”，“ a”，“ n he”）。 Rybicki和Eder的解决方案是将所有5000个单词量化六次，并以20个为增量进行剔除。与其寻找单一的“最佳”匹配，不如将所有内容都放入其中，并在特定条件下达到每个文本之间存在的平均相似度。通过分析单词和字符形式的单个单词，双字母组，三字组，四字组和五字组，我提出了一种类似的方法。所有这些都是通过“ Stylo”包完成的，该包是用R语言构造的定制库。

一旦完成所有这些分析，R就会将边的列表输出到工作目录中，这将构成网络的基础。看起来像这样：

这里的每一行代表来自一个文本“源”，“目标”的关系。每行实际上是从A列到B列的线。标记为“ Weight”的第三列表示关系的强度，最弱的是1，最强的是〜1125。这似乎是可能的最大值，所以我怀疑创建此表的算法会切断相似性计算超过某一点的时间。回到表上，我们可以看到它们以强度降序排列，而安妮·勃朗特的小说《 艾格尼丝·格雷》与她的另一本小说《怀德费尔大厅的租户》最为相似。从那里有一个明显的下降点，从902下降到226的重量，其次是第二部相似的小说，詹姆斯·乔伊斯（James Joyce）的《 芬尼根斯苏醒》 （ Finnegans Wake） 。

对于上面提到的每个刻度，都会有效地输出此类列表。然后将它们合并为一个庞大的边列表（总共约14720行）。因为大约有十个边列表，所以每个关系有十个不同的权重。每一个都平均成一个“边缘”，这构成了网络的基础，我将在后续文章中讨论。