
今年早些时候,我从“团结”组织了大约800个数字化杂志。 革命性中心和Radical库”集合,但有一些Google计算机视觉API。 然后,我构建了一个小工具来评估结果。 这些API的使用非常简单,我想看看通过这种低障碍的过程可以丰富哪些元数据。 我开始评估结果,但是图像标签API结果确实让我失望。 该任务将拍摄一张图像并返回它认为正在描绘的内容。 经典的机器学习应用程序。 我完全希望花一天的时间进行检查,微笑着说:“哈哈,谷歌认为这是一条狗,这是一条狗,这是一条狗……”,但事实并非如此。 几乎所有图像(这些都是整页扫描)都返回模糊的结果,例如“黑白,卡通,字体,绘图,线条,文本,形状,图案,品牌”。 Zine是复杂的多媒体文档,这完全有道理。 您不能发送像整本杂志一样疯狂的东西并期望获得魔法。
所以我做了一点测试,如果我可以减少页面的复杂度,谷歌标签API可以找出一些图像怎么办? 因此,我从整页缩小到一个没有文本的页面,最后只是嵌入的图像:

当然,要使标签发挥作用,您只需要发送图像,而不是整个页面即可。 然后,我们需要找出页面中的图像在哪里。 令人惊讶的是,这不是一件容易的事。 我的第一个念头是“哦,有人从Internet存档书籍中提取了数十亿个图像,然后将它们放在flickr上,对吗? 最后,我跟踪了该项目的工作方式,并基本上使用了ABBY OCR XML文件,因为该工具在文档中标记了文本和图像块。 ABBY OCR是一种商业工具,我没有,所以必须有另一种方法。
输入文档布局分析的字段。 我在看报纸的地方看到人们做着令人惊奇的事情。 我知道这是可能的,但我不知道自己在做什么。 我根据随机的论坛评论编译了Tesseract的自定义分支版本,尝试了所有我可以找到的免费工具,甚至尝试了Windows程序。 但是,这些都不起作用,没有任何东西可以可靠地生成指出文档中图像的布局分析。
我向后工作,我知道基于OCR API的文本在哪里,如果我可以从页面中删除所有文本,那么大概剩下的就是图像。 我研究了如何进行图像显着性检测,这使我能够通过博客文章进行scikit图像像素簇的测量。 这意味着,如果文档页面中仅有图像,那么我可以成功检测到图像。

我编写了一个脚本,将页面中的所有文本涂白,然后查找一定大小的像素簇。 在这些示例中,我在文本块周围放置了黑色边框以使边界框可视化,但实际上在删除文本后页面变得非常稀疏。 使用这种方法,更传统的页面布局可以更好地工作。 例如,图像上的文本重叠或图像模糊不清通常会导致将其分解为多个区域。 但是即使是最复杂的锌合金美学也仍然取得了一些成功。
我制作了一个视频,在约3,000张zine页面上显示了此过程:
您会看到很多情况下它崩溃了,还有很多极端情况。 我敢肯定,通过更多的工作或更好的计算机视觉,这可以得到改善。 但是现在,它为我提供了更多可以通过API运行的资料,希望可以为zine的图形组件返回更好的元数据。
在下一部分中,我们将评估所有产生的元数据(包括OCR),此图像标记过程的结果等等的评估结果。