JSTOR的元数据故事

我从事学术出版的内容领域工作已有25年了,我无法数出被问到或无视“元数据到底是什么?”这个问题的次数。将元数据描述为“关于数据的数据”。不是因为定义错误(不是),而是因为它没有帮助。 您总是会被后续想法所困扰,“好吧, 意味着什么?”

元数据在最好和最有效的情况下,是对内容的描述和某人对如何使用该内容的目标的表达。 可能不止如此,但我认为这是反映其最重要用途的定义。 这是一个例子:

   
10.2307 / 40666632





就像您在这里看到的那样,元数据就像是内容用户的使用手册,其中许多您可能还没有见过,甚至可能从未见过。

这是一个很大的挑战。 我猜想大多数内容创建者可以很好地描述他们的内容及其预期用途的重要性。 但是,当您将内容与他人的内容合并时会发生什么? 或当有人以不同的角度来使用您的内容时如何? 当我们假设每个人都将按照自己的意愿去做事情时,我们可能会陷入困境,因为几乎每个人都是不同的。 内容创建者的目标与其发布者,平台提供商,库,最终用户或工作流中的几乎所有其他人的目标可能有很大不同。

因此,产生良好的元数据的诀窍是尽力描述您的内容以及您认为可以使用它完成的所有事情,但又没有限制其他人可能希望对您的内容进行的处理。 容易吧?

对于JSTOR(一种不断增长的期刊和书籍以及图像和其他内容的数字资源),我们力求达到适当的平衡,但同时也认识到我们的元数据需要随着时间而发展。

JSTOR成立于1997年,是期刊的在线存档,其元数据策略非常能反映其存在的原因。 JSTOR的价值在于为图书馆提供完整的期刊数字档案,因此元数据需要证明我们拥有每本期刊的每一期的每一页,可追溯到该期刊出版的开始。 这种清晰性使图书馆可以放心地删除标题,这意味着它们可以从堆栈中删除打印副本,并相信可以从JSTOR以数字方式获得它。

要说这推动了JSTOR的元数据策略可能是轻描淡写。 这是一种通过元数据表达我们正在做的事情的价值的方式,而我们正在做的事情的价值就是图书馆对我们的保护,以保护我们的内容,并使之在未来乃至将来都可访问。

该元数据策略的实现意味着我们非常仔细和精确地标记了围绕文章的所有描述性元数据-卷,问题,标题等。 即使在打印页面上不清楚的情况下,我们也聘用了元数据图书馆员来确定表达这种描述性元数据的最佳方法,我们也受到图书馆参与者的感谢。 从今天开始到今天,我们大约有50个元数据字段描述每个期刊文章或书籍章节,在标题和期刊级别还有其他元数据字段。

元数据的这一方面和我们的使命对我们仍然非常重要,但是二十年后,如果您不介意我的话,我们已经非常擅长在基本集之外表达元数据中的描述性价值。 我们喜欢开玩笑说我们的内容管理团队“制作甜甜圈”。但是我们也认识到那些是非常重要的甜甜圈。

世界和我们的元数据如何演变? 除了早期的元数据目标外,我们还添加了一些目标,这主要是由于Web上的内容数量惊人地增长以及描述它的最佳实践,以及JSTOR档案库的巨大增长(现在有超过一千万篇期刊文章和六万本书) )。 面临的挑战是,大多数人并不确切知道他们在寻找什么,而有了这么多的内容,全文搜索引擎就很难找到“恰好”的文章或书籍章节来回答问题。研究报告或我们用户喜欢做的许多事情。

因此,我们不得不重新考虑元数据。 描述性元数据(换句话说,有关某内容的事实,例如作者是谁和标题)确实很繁重,但我们确定需要添加一些语义元数据或描述文档内容的元数据。关于,而不仅仅是他们是什么。 为了解决这个问题,我们建立了所谓的JSTOR词库,目前有大约50,000个概念涵盖了JSTOR包括的广泛主题领域,我们已经有效地与500万种期刊文章,书籍章节和研究报告相关联。

这种方法的优点在于,我们能够在所有期刊和书籍中“规范化”概念(如果一本期刊使用“道路”一词,另一本期刊使用“街道”一词,则用户应该以共同的方式查看这些结果)搜索)。 它可以变得更加复杂,并且随着我们启动特定的内容集合(例如,围绕可持续性和安全性研究),我们在这些特定领域建立了同义词库,从而创建了更丰富的语义链接来帮助用户浏览此内容。

现在,我们通过元数据表达JSTOR给图书馆及其用户带来的附加价值:内容发现和使用。

开发语义元数据是我们发展过程中值得进行的下一步,但是我们知道还没有完成。 因为好的元数据,就像好的内容一样,正在不断发展。 无论是来自我们发布商合作伙伴的描述性元数据(例如DOI,ORCID ID等)的增加,还是用户生成的元数据的流行,我们一直在寻找将用户与我们所认为的联系起来的东西。我们存档中的精彩内容。

这也是我们参与Metadata2020合作的重要原因。 好的元数据不是一个组织可以独自完成的事情。 帮助他人,向他人学习以及在学术内容的工作流程中与所有人交谈,将为每个参与人员带来更好,更丰富的元数据,并将基于该元数据转化为更好的用户体验。

因此,下次有人问您什么是元数据时,不要说它是关于数据的数据。

该帖子 最初 由Metadata 2020 发布