信号4:如何使用大数据识别文献
图片来源:Ward Shelly的科幻小说史 最近,大数据已被用于识别新闻网站和频道中所说的话题的偏见和趋势。 通过突出显示经常出现在极左或极右网站中的某些经常出现的关键词和句子结构,而不是自己花费更多时间阅读和事实检查它们,大数据可以轻松地对每篇文章的清晰度或事实报告进行分类。 但是,大数据还可以用于文学批评,识别文学的类型和趋势以及识别匿名作者。 根据《经济学人》的说法,通过计算分析,可以确定一些涉嫌归因于莎士比亚的戏剧根本不是他本人写的,而是他本人是克里斯托弗·马洛(Christopher Marlowe)。 这篇文章指出,这对于消除莎士比亚的崇拜并指出可能影响他的戏剧作家而不是其他作家特别有用,因为文学评论家很难准确地自己做出区分。 而且由于文学评论家即使在文学上也很难区分,因此《纽约时报》的一篇文章提出了一种新兴的趋势,即不通过阅读而是通过使用算法和数字化数据库对文学进行分析来分析文学。 通过这些计算,指出了一些文学评论家没有看到的有趣事实:例如,哥特式小说流派不仅因为城堡,黑暗和超自然的主题而成为哥特式,而且还包括它们的单词用法:他们对特定动词时态和介词的单词选择。 作者认为,有了这种认识,利用大数据作为工具,一些学者就有可能回顾过去并重新发现一些被忽略的原始故事,这些故事现在可以被称为经典。 但是,我认为在这里使用大数据存在一定的局限性:文章似乎希望指出作者和体裁作家常用的词语,但是我想知道是否已使用大数据来检查和分析写作风格,写作结构和散文,因为这些分析可能对文学评论家有用,而不仅仅是作家常用的单词。 尽管如此,我相信使用大数据来识别单词可能会给我们带来一幅图片,但是该图片是否非常准确值得怀疑。 例如,我正在一个不同的班级做一个项目,该项目根据推特用户的单词使用情况分析他们的沮丧程度,有些单词比其他单词传达出更多的情感分量,但上下文也很重要:对于文学而言,很难判断是否写作实际上是好的,或者只是讽刺。