最近发布了Wikipedia上使用的引文数据,将源材料的标识符连接到Wikipedia文章,并使用它们作为参考:
我很好奇维基百科生态系统中使用的书籍类型。 他们的出版时间,主要作者/影响力,最常见的主题等。使用发布的引文数据和OCLC元数据API,我收集了有关英语Wikipedia文章中引用的书籍的一些统计信息。
号码
每个Wikipedia语言站点的引用均已发布。 为了确定范围,我只看了英文Wikipedia文章。 仍然有很多引用:
379万次引用
170万ISBN引用量(书籍)
684,965个唯一的ISBN
这意味着在英语维基百科上所有的书籍引用中,有684K独特的书籍被引用。 我采用了这些ISBN,并通过各种API运行它们以收集有关每本书的元数据。
- 冥想:一
- framtida的平台
- #WomensHistoryMonth聚焦:Jean Wenger,副法律图书管理员兼平等访问冠军
- 做某事:图书馆庆祝新泽西州制造者日等
- Knihovny bez knih jsou jen“ ovny”
出版年份
被引用的大多数书籍何时出版?


(查看完整图表)
所使用的大多数书籍都是在2000年至2013年间出版,并于2007年达到顶峰:
1999 19,379
2000 21,908
2001 22,393
2002 24,393
2003 26,782
2004 29,326
2005 30,283
2006 31,702
2007 33,039
2008 30,625
2009 29,421
2010 28,975
2011 25,856
2012 24,438
2013 24,111
2014 17,474
2015 12,012
2016年10,611
2017 6974
2018 927
您可以在此Google工作表上查看全部数据。
我列出了被引用的1900年前的书籍,以了解哪些早期的书籍被用于撰写什么文章。 有一些有趣的示例,但也有很多错误的日期元数据。
s
我们可以考虑以两种不同的方式撰写被引用书的人或组织。
- 他们的许多独特作品在Wikipedia上被引用(数量众多,代表了很多作品)
- 许多不同的文章引用了他们的作品(也许在1000篇不同的文章中引用了相同的作品)
首先:


(在新窗口中打开)
在此图中,我们可以看到,例如,RL Stine在Wikipedia(或页面中包含的ISBN)中引用了362篇作品,但仅在18篇不同的文章中引用过。 与第一名的位置相对应的是美国学会学会,它引用了1,250幅作品,涉及3,858个不同的页面。 您可以在此工作表中按工作人数查看前10,000名作者。
第二种方法:


(在新窗口中查看)
在这种情况下,我们可以看到作者之所以具有影响力,不是因为所引用的独特作品数量众多,而是因为引用其作品的文章数量所致。 例如,罗姆(Holmesby),罗素(Russell)引用了9本书,但有7,000多篇文章。 他写了《 AFL足球运动员百科全书:自1897年以来每位AFL / VFL运动员,并在每位足球运动员的文章中被引用。
您可以在此Google工作表中按文章数查看排名靠前的10,000位作者。
持有计数
我很好奇,是否正在图书馆和其他机构广泛使用正在使用的独特书籍。 我通过使用OCLC的每件作品的分类保留和保留计数来找到此统计信息。


从该图中我们可以看到,所引用的大多数书籍都由0-202家机构持有。 我们可以进一步细分0-202组:


结果有助于得出这样一种观点,即在EN Wikipedia上引用的大多数书籍并未得到广泛使用(基于OCLC的数据)。 您可以通过说文章需要特定领域的文献来使其合理化,而这些文献不一定要被大量机构持有。
主题词
这可能是最不有趣的方面,但是我们可以从这些书中看到最常见的(FAST)主题:


您可以在此Google工作表中查看排名前1万的列表。
数据
我计划对此做更多工作,但是如果您愿意,我可以提供数据供您使用:
684,965条记录
新行分隔的json文件(每行都是其自己的json对象)
字段:“ title”:“书名”
'isbn13':'isbn 13'
'年份':'发布年份'
'isbn10':'isbn 10'
'oclc':'oclc号'
'authors':'作者数组'
'holdings':'oclc的持股数'
'oclcOWI':'oclc分类ID'
'google':'google图书ID'
'pages':'wiki文章标题数组'
下载资料
我大约有2万条记录,找不到任何元数据。 这些资源可能是自行发布的资源,也可能是OCLC / Google的图书生态系统中没有的资源,或者是错误的ISBN编号。
我认为将来可能会进行一些有趣的工作,将这些资源用作图书馆分类系统,LCC或Wikimedia生态系统主题的连接器。 通过与LCC或其他知识组织系统进行比较,它也可以用于确定Wikipedia哪些区域开发不足。
除了书籍的元数据外,在书籍之外还可以查看DOI背后的元数据和其他引文。