是时候进行胆量检查了小小书 XXshu

简而言之，Gutcheck扫描纯文本文档并创建所有潜在OCR和人为错误的列表。

古腾堡之外

当然，Gutcheck不必仅限于Project Gutenberg文件。那仅仅是它的起源。 Gutcheck的创建者预见了该工具的广泛使用。

想象一下，如果您愿意的话，一群大学生会一意孤行地保存一本恶化的老派杂志。他们扫描原始文档，并通过OCR软件能够创建此旧杂志的纯文本版本。在将每个单独的文章加载到数据库（例如在Omeka上）之前，他们必须首先清除OCR创建的文本。这通常需要将OCR创建的文本与原始副本进行比较，可能要连续几个小时，然后再让其他人仔细检查所做的编辑。确实很费时间。但是，使用Gutcheck可以完成大部分工作。他们需要做的就是进行Gutcheck为他们强调的更正！有什么会更容易？

下载Gutcheck

好的。实际上，这对我来说并不容易。我遵循了Gutcheck网站和Gutenberg项目上提供的链接，但是快速下载Gutcheck成了一场噩梦。这是因为提供的链接会导致使用旧的DOS软件：

图5.下载了网站中链接的Gutcheck版本后，您会找到此纯文本文档，其中解释了如何使用它。我花了很长的时间才试图使它适用于Windows 8.1。

当然，如果您已经知道像手背一样的计算机，那么这对您来说可能没有问题。但是，如果您像我一样，仅将计算机用作美化的文字处理器，那么这可能对您无济于事。

没有恐惧。多年来，随着数字人文主义者的编程需求发生了变化，另一个使用笔名Thundergnat的程序员一直在开发Guiguts，这是一种针对Windows，Mac和Linux的非DOS程序，其中包含了Gutcheck。您需要做的就是找到适用于您的系统和编程版本的Guiguts。对我来说，我需要一个与Windows 8兼容的版本，该版本是通过简单的Google搜索找到的：

在这里，您可以找到Guiguts的所有可能迭代的列表。但是，此列表并没有真正告诉您哪个版本最适合哪种操作系统。

安装Gutcheck

现在，Guiguts安全地位于计算机的“下载”文件夹中，只需将所有文件提取到您选择的位置即可：

为了简单起见，我将其提取到包含要使用的纯文本文档的文件夹中。一旦安全地提取了文件，Guiguts便真正成为易于使用的工具。在提取的文件中，查找run_guiguts并单击它：

运行Gutcheck

Guiguts现在是它自己的窗口。没有凌乱的DOS。无需将DOS程序应用于特定文件。无需真正了解控制计算机工作的编程技术方面！欢迎您简单地假设这是魔术。

只需使用左下方的“打开文件”图标打开您要在Guiguts中运行Gutcheck的文本文件（图9-A）。

现在将文档加载到Guiguts中，单击Gutcheck按钮（图像9-B）。

为简单起见，您可以在具有原始文本的“ Guigts”屏幕和“ Gutcheck”提供的问题列表之间拆分屏幕。

图10. James Hogg的“ Justified Sinner”的纯文本版本与Gutcheck提供的潜在错误列表并排装入Guiguts（左）。

单击每个Gutcheck问题时，Guiguts上会突出显示相应的区域。现在，您无需计数行和列即可找到错误。

图11.单击Gutcheck列表中的错误（右），计算机将在纯文本文档中自动突出显示该错误（左）。

补遗

简单吧？好吧，有点。我应该提到一些附录。

首先，文本中的错误越多，文件越大，对于简单的笔记本电脑来说，处理所有文本的难度就越大。我只有一台具有6 GB RAM和2.7 GHz CPU的简单笔记本电脑。当我通过Gutcheck运行詹姆斯·霍格（James Hogg）的《正当罪人的私人回忆录和自白》的已编辑版本时，它只有80个问题，仅我的笔记本电脑就足以处理该问题。大多数错误是标点符号和拼写问题，尽管在技术上不正确，但它们忠于原始出版物。古怪的作者。但是，当我通过Gutcheck运行未经编辑的詹姆斯·霍格（James Hogg）的《女王的苏醒》 （一本超过300页的史诗）时，发现了将近13,000个潜在错误：

图12. Gutcheck列出了詹姆斯·霍格（James Hogg）的“女王的苏醒”（The Queen’s Wake）原始版本的错误列表。

在笔记本电脑冻结之前，我只能扫描前20个错误。对于大文本文件，我建议找到一台功能更强大的计算机。如果您不能做到这一点，那么下一个最好的办法就是获取纯文本文档的较小，一口大小的块，以使Gutcheck可以更轻松地进行处理。或者，您可以自行清理文档，逐行检查文档是否与原始文档相对应，然后使用Gutcheck作为后续文档。

其次，Guiguts除了Gutcheck还具有其他功能，包括拼写检查器。但是，我无法使拼写检查器正常工作，这是我看到的有关工具包的最常见的投诉。尽管如此，勤奋的数字人文主义者还可以在Guiguts软件包中探索许多其他工具。

结论

尽管古腾堡计划为具有文学思想的数字人文主义者提供了多种可用的文本，但古腾堡计划中可用的绝大部分文件都是出于版权法规的缘故而来自较旧的文本。进行数字人文工作的最简单方法是，使用不再受版权保护的书籍，而不必为在网上发布文本而付出高昂的代价。古腾堡计划的大部分著作不仅陈旧，而且范围和范围仍然有限。古腾堡计划的选择由志愿者自行决定，因此有时会限制文本的可用性。您是否正在寻找特定作者的特定作品？除非这是主要规范作者的主要规范著作，否则您很有可能在这里找不到它。然后还有作者作品的广度。就我而言，我目前正在研究詹姆斯·霍格（James Hogg），他是苏格兰的未成年人，他的著作超过42篇。但是，古腾堡计划中只有5名代表。如果我想使用DH工具比较他的所有作品怎么办？还是要在他收集的所有作品中寻找字词趋势？好吧，5仍然总比没有好，但是几乎不能代表整体。

怎么办，怎么办…

我想我们将回到自己清理所有这些文件的过程中，以创建工作的文本集合。至少我们有Gutcheck来加快这一过程。但是，为什么要为此自私呢？您可以将清理后的纯文本文件提交给Gutenberg项目，并帮助将来具有文学思想的数字人文主义者！无论如何，您都在做工作，那么为什么不留下其他人可以建立的遗产呢？