进入差距:机器学习揭示了性别和写作

克里斯汀·门格·安德森

改自flickr / David Orban

我们用于从自动回复文章生成文本的技术正在学习我们提供给他们的文本集中的模式。

在我的Wikipedia页面的底部是一个标签,标识我为“美国女小说家”。如果我是男人,该标签将显示为“美国男小说家”。我的性别与我的职业无关,但在那里,与我的职业紧密相连,就好像我和男性小说家在本质上是不同的领域中工作一样。

但是,我们很容易做出愤世嫉俗的论点。

研究表明,女性书籍的价格低于男性书籍,对女性小说的评论较少,在文学期刊上的出版频率也较低。 甚至关于女性的书比关于男性的书更不可能获得奖赏。 男性和女性所经历的领域确实是不同的:其中之一存在更多的粗糙斑点和坑洼。

在过去的几个月中,当我研究大型文本语料库时,我经常发现自己在思考写作世界中的性别不平等。 我想为一个机器学习项目收集男女被禁止的书籍(我计划在不同的语料库上训练两个生成文本的模型,并将它们放在对话中),但是尽管男性被禁止的文本在公众中还是很容易找到的事实证明,女性禁止使用的文本要困难得多。

当我在古腾堡计划中搜索被禁止的文本时,该计划中有58,000多个文本可以免费下载,我开始怀疑有多少本书(无论是否被禁止)是女性使用的。 一种估计来自Wikidata,其中在Wikipedia页面上找到的信息(例如人的姓名,性别或职业)以机器可读的方式存储。 我发现大约有一万二千人(作家,编辑,插图画家,翻译者)为该语料库做出了贡献。

在这一子集中,男人比女人多5到1。尽管性别不是二元的,但我看一下男人和女人的数量,因为这是使用基于名称的性别预测工具可获得的或可估计的信息。

我来古腾堡计划(Project Gutenberg)来为我的机器人找到被禁止的书籍,但是我开始怀疑如果在整个语料库上受过训练,他们会从写作中学到什么。 我读过许多研究,这些研究确定了与一种或另一种性别相关的语言模式。

阿尔托大学和赫尔辛基大学的研究人员比较了英国国家语料库中男女的小说,发现男性使用第一人称复数(我们,我们),而女性使用第二人称复数(您和您)。 男人过度使用某些名词(例如“ man”),女人过度使用某些动词(例如“ thought”)和增强词(例如“ much”或“ very”)。 研究人员指出,这种差异可能是由于目标受众的性别而不是作者的性别引起的,但是这种区别很快就变得模糊了。

是什么使这本书适合一种或另一种性别? 当只有女孩被邀请撰写Shannon Hale的演讲时,一位老师后来告诉Hale,“政府只允许初中女孩离开教室参加集会”,她指出:

“我谈论的是书籍和写作,阅读,拒绝和遍历书籍,以及如何提出故事创意。 但是因为我是女人,因为我的一些书的封面上有女孩的照片,因为我的一些书的标题带有“公主”,所以我被打上“只为女孩”的字样。 但是,有男生封面的男作家却在整个学校讲话。”

如果我们使用的语言能够反映出对我们的期望,或者仅希望女性阅读女性的书,那么某些性别更普遍地使用某些单词这一事实令我感到系统偏见。

就像我发表几篇论文时一样,我通过两个不同的性别预测系统撰写了有关技术的文章,并且被这两个领域都确定为男性。 我怀疑训练语料库中存在失衡,我之所以被称为男人,是因为该系统从工作中学到了信息,它知道男人使用诸如“机器学习”和“偏见数据”之类的单词和短语。

仅仅通过浏览单个禁书清单中的链接,我就发现了超过200万个我所谓的“禁人”文学作品。 闲逛了几个小时,我从公共领域收集了大约80万个被禁止的女性文学作品。 每个机器人至少要有一百万个字。 我决定修改我原来的机器学习计划,转而关注当代作品。

我转向了Smashwords,根据作者的意愿,其中一些书籍可以出售,而其他书籍则可以免费下载。 在这个网站上,与性别相关的供过于求和短缺与我在古腾堡计划中遇到的情况相反。 我发现免费提供其十万字小说的女性远远超过男性。

然而,在这一点上,我对性别和语言的兴趣已经超过了我对机器人聊天的兴趣。 我正在阅读有关统计测试的论文,以确定哪些单词用法上的差异很重要,并想知道如何获得真正的大型语料库之类的东西。 这就是我遇到的当代美国英语语料库(COCA)的方式:在1990年至2017年之间收集的220,225份文本中有5.6亿个单词。

我发现这个语料库令人眼花,乱,这不仅是因为我发现了自己的作品,还因为当我打开收录的作家名单并开始浏览小说作者的名字时(他们只代表作品的一部分),打击-以积极的方式。 语料库看起来像性别一样平衡吗? 我写信给杨百翰大学的马克·戴维斯教授(Mark Davies)。

“实际上,’平衡’仅是指COCA中’宏观流派’(口语,小说等)之间的总体平衡。 至于小说中的性别平衡,我从未真正设计过这样的语料库,”他说。 他向我指出了道格·贝伯(Doug Biber)和杰西·埃格伯特(Jesse Egbert)的工作,他们已经撰写了有关如何成为语料库代表的文章,这不是一件容易的事。

我感谢戴维斯教授的坦率,但留下了我的问题和一连串的小说作家。 我通过性别预测器运行名字,估计的男女比例相当。 男性贡献了更多的科幻小说,女性贡献了更多的“青少年工作”。但是,我对估算的不确定性感到沮丧。

名称并非总是正确地解析,预测只是一个猜测,而且我看不到女性以男性的名义工作—乔治·马登·马丁,马克斯·杜·威兹特,卢卡斯·马勒特和亨利·汉德尔·理查森等人仅举几例。 具有讽刺意味的是,以男人的名字写作的女性很容易逃脱对女性作家的搜寻,这使我忧郁。 我想知道谁在这个语料库中。 我决定尝试再次将名称与Wikidata中的传记记录进行匹配。

通过一个名为OpenRefine的工具使用Wikidata,我可以匹配我尝试的五千个名字的子集的一半以下。 并非所有名称都与正确的人匹配。 例如,伊丽莎白·埃文斯(Elizabeth Evans)是六本书的作者,并且是NEA奖学金的获得者,没有Wikipedia页面,但她与另一个同名的人匹配。 因为我只对性别感兴趣,所以我接受了这场比赛-似乎很可能认为性别正确。 在匹配的名字中,有40%是女性。

我放弃了这条询问线,但我留下了自己的问题:语料库中包括谁? 谁不是 我听到的是谁的声音? 它讲述了什么故事? 根据我所看到的估计,对于英语维基百科,超过80%的贡献者是男性。 那里的故事-我们的历史-与男人的故事不成比例,并且男人的传记大大超过女人的传记(我看到的最新估计显示,只有不到18%的传记是女人的)。 我怀疑我的COCA性别估计中40/60的不平衡比Wikia归因于Wikipedia,但我所了解的仅此而已。

就古腾堡计划而言,作品主要是由男性作家创作的,这种不平衡现象放大了属于男性的任何语言模式。 研究人员在对英国国家语料库的研究中指出,如果男性作家比女性作家更多地使用“男人”一词,那么男性比女性作家多五倍的话,这个词就显得更加突出。

我在思考我们的语料库中的失衡如何加剧偏见,不仅在主题(关于男性角色的故事或关于男性传记的故事)上,而且在我们看到并选择的词语上。 我们用于从自动回复文章生成文本的技术正在学习我们提供给他们的文本集中的模式。 反过来,这些技术不仅为我们所有人写作,而且还强加了他们学到的模式。 并非所有写(或读)技术的人都是男人,但人工智能基于其训练语料库所产生的词语和联想而知道的故事则相反。

如果我的性别与我的工作无关,也不会因反映出我每天所面对的偏见的技术而被诊断和误诊,我将很高兴。 我是一个女人。 我是一个作家。 我在这里写的1500个单词不会在任何大型语料库中保持性别平衡,但是我正在将它们推广到世界上,我希望它们能被计数。

寻找评论栏吗? 我们没有一个