可发现性危机以及如何解决它小小书 XXshu

由于缺少一个单一的中央存储库来收集各学科的学术论文信息，因此很难估计每年出版的期刊和论文的确切数量。 Lutz Bornmann和Ruediger Mutz在他们2014年的论文《现代科学的增长率：基于出版物和引用文献的数量的文献计量分析》中进行了保守的估计，他们在其中追踪所有材料-论文，书籍，数据集，甚至网站。他们引用了1980年至2012年之间的数据。由此，他们对数据进行了绘图，发现科学产出的比率每年以8-9％的速度增长，这意味着总产出每九年翻一番。（近年来的下降似乎可以归因于没有足够时间被引用的最新论文）

从1650年到2012年，每年被引用参考文献的数量增长（Bornmann和Mutz，2014年）

诚然，这是一个不完善的措施，因为它会忽略所有从未引用过的资源以及不再引用的所有资源。尽管如此，至少在表面上看来，当前创建的研究数量急剧增加。

甚至这也可能低估了所产生的潜在有价值工作的实际数量。一位学者估计，每年在他的学科范围内撰写10,000篇论文，这些论文争夺约2,000个篇幅。那些被拒绝发表论文的人不仅会放弃，而且会继续尝试在其他知名来源发表论文，从而导致积压，使拒绝率达到94％。由于似乎很合理的理由是，那些未发表的论文中的很大一部分实际上可能是有价值的，并且仅由于空间不足而被漏掉了，因此他主张“创造更多的期刊空间（也许是我们现在的三倍）），以发表其他论文”。

而且，这甚至都没有考虑到开放访问运动的影响以及直接在社交媒体和网络上共享结果的趋势，以及缺乏传统看门人的方式几乎肯定会增加产生多少内容。

这些讨论对出版商的意义在于，将需要对大量研究成果进行高效筛选，因为如果能够找到相关的工作，那么增加多少无关的材料就无关紧要了。换句话说，可发现性将成为越来越紧迫的问题。

我推测，如果我们要处理此问题，则必须进行两种技术更改。首先是内容的细粒度标记，这将使研究人员可以对他们感兴趣的主题进行难以置信的精确搜索。例如，这可能意味着，与其解决几个关键词以及标题和作者信息，书籍将必须提供章级标记，以提供更多元数据以及更精确的元数据。

但是，随着对元数据的要求越来越高，传统的手动生成相关元数据也将变得越来越繁重。这将需要机器学习方法来快速扫描内容并生成相关类型的元数据，然后可以简单地由人类同行批准。这将不是一个简单的要求，因为不同类型的数据（照片，段落等）将具有完全不同的技术方法，其中一些方法涉及对语言规则的巧妙操纵，而另一些则涉及图像识别技术。而且不同的学术领域可能需要非常不同的元数据，这表明技术将必须密切关注各种需求，而不是简单地生成通用的高级解决方案。

学术产出的增长似乎令人生畏，但我宁愿更乐观地看待它，因为这表明我们有幸生活在一个我们所掌握的知识比我们所知道的要多得多的时代。通过一些巧妙的技术修复，我们应该能够全面利用生产率的提高，并轻松应对这些瞬息万变的时代。