改变出版界—创建一个开放图标准

通过将此信息作为元数据添加到文章中,我们创建了世界上所有书面知识的图表。 使用demos.explosion.ai的源NyTimes /可视化

通过将此类上下文信息作为元数据添加到文章中,我们将创建一个世界上所有书面知识的图表。 杰尔·索普(Jer Thorp)进行的这种精美的可视化只是说明了拥有数据后您可以做的一件事。

大众科学杂志的出版商要求我制作一个可视化的文章,以探讨其出版物的档案。 PopSci已有近140年的历史。 我与马克·汉森(Mark Hansen)合作,最终制作了一张图片,展示了自杂志创办以来,不同的技术和文化术语在该杂志中的使用和使用。 —杰尔·索普

问题在于,现在这是一个手动过程,我可以抓取一个网站,应用自然语言处理(NLP)并提取数据。

之后,第二个想要做的人必须重新开始。 如果我们承担将这些信息添加到撰写本文的人员的任务,则该信息将可供访问世界上任何已发表文章的元数据的每个人使用。

第1部分。历史

大多数人都熟悉HTML标记是什么。 通常,HTML标签会告诉浏览器如何显示标签中包含的信息。 例如,

Avatar

告诉浏览器以标题1格式显示文本字符串“ Avatar”。 但是,HTML标记未提供有关该字符串的含义的任何信息-“头像”可能是指非常成功的3D电影,或者可能是一种个人资料图片,这会使搜索更加困难引擎以智能方式向用户显示相关内容。

Schema.org提供了一组共享词汇,网站管理员可以使用这些词汇以主要搜索引擎可以理解的方式标记他们的页面:Google,Microsoft,Yandex和Yahoo!。

为什么要使用微数据?

您的网页具有人们在阅读网页时理解的潜在含义。 但是搜索引擎对这些页面上正在讨论的内容了解有限。 通过在网页的HTML中添加其他标签(标签说:“嘿,搜索引擎,此信息描述了本文的特定文章,地点或个人”,您可以帮助搜索引擎和其他应用更好地理解您的内容,并以有用且相关的方式对其进行索引。 微数据是随HTML5引入的一组标签,可让您执行此操作。

1a。 为什么要使用微数据?

您的网页具有人们在阅读网页时理解的潜在含义。 但是搜索引擎对这些页面上正在讨论的内容了解有限。 通过在网页的HTML中添加其他标签(例如,“嘿搜索引擎,此信息描述了此特定电影,地点,人物或视频”的标签),可以帮助搜索引擎和其他应用更好地理解您的内容并以有用且相关的方式进行显示。 微数据是随HTML5引入的一组标签,可让您执行此操作。

如果我们有这些数据怎么办?

2009年,杰尔·索普(Jer Thorp)创建了这个令人惊叹的可视化文件,它显示了NyTimes使用NyTimes API在1984年至2009年期间撰写的有关美国总统的文章数量随时间的演变。

使用开放图谱发布标准 ,任何出版物都可以提供此信息,从而使数据科学家可以更好地了解构成我们世界的事件和行动。

https://www.flickr.com/photos/blprnt/sets/72157613381549987

1b。 itemscope和itemtype

让我们举一个具体的例子。 您有一篇关于唐纳德·特朗普的文章-一篇文章,其中包含引用来源的链接,文章中有关人员的信息,等等。 您的HTML代码可能如下所示:

  

特朗普与世界民粹主义的兴起


作者:史蒂夫·贾斯汀
在过去几周[...]
来源

首先,请确定页面中与“电影头像”“有关”的部分。 为此,请将itemscope元素添加到包含有关项目信息的HTML标签中,如下所示:

  <div itemscope > 

特朗普与世界民粹主义的兴起


作者:史蒂夫·贾斯汀
在过去几周[...]
来源

通过添加itemscope ,您可以指定

...

块中包含的HTML与特定项目有关。

但是,指定正在讨论的项目而不指定项目的类型并不是全部有用。 您可以在itemscope之后立即使用itemtype属性指定项目的类型。

  <meta property =“ og:isBasedOn ” content =“ http://cnn.com/ 
OriginalSource.html “>
-------------------------------------------------- -------
<div itemscope itemtype =“ https://schema.org/NewsArticle >

特朗普与世界民粹主义的兴起


作者:史蒂夫·贾斯汀
在过去几周[...]

这指定div中包含的项目实际上是新闻文章,如schema.org类型层次结构中所定义。 项目类型以URL的形式提供,在这种情况下为http://schema.org/NewsArticle

第2部分。添加有关您所发布内容的元数据。

来源:https://www.flickr.com/photos/blprnt/sets/72157613381549987

HTML 元素

元素是元数据(有关数据的数据)的容器,并放置在标记和标记之间。

HTML元数据是有关HTML文档的数据。 不显示元数据。

元数据通常定义文档标题,字符集,样式,链接,脚本和其他元信息。

HTML 元素

元素定义页面的作者:

  <meta name =“ 作者 ” content =“ Hege Refsnes”> 

第3部分。开放图谱发布标准

Open Graph协议使任何网页都可以成为社交图中的丰富对象。 例如,它在Facebook上用于允许任何网页具有与Facebook上任何其他对象相同的功能。

美国排名前100的在线NewsPaper中有75%已在使用Open Graph

我查看了美国排名前100的报纸,看看其中有多少已经在使用Open Graph。

现在,它们仅提供最低要求:

文章的标题描述类型

这里的一个大例外是NyTimes ,每篇文章都包含有关该文章中的人物,该文章的位置或地理位置,该文​​章中所引用的国家或地区等的信息。

基本元数据

要将网页变成图形对象,您需要向页面添加基本元数据。 您将其他标记放置在网页的中。 每个页面的四个必需属性是:

例如,以下是《纽约时报》的Fidel Castro Dies的Open Graph协议标记:

  

</code> <code> <br> <br> <title></code> Fidel Castro死<code>
<meta property=" og:title " content="

<meta property=" og:title " content="

<meta property=" og:title " content="
菲德尔·卡斯特罗(Fidel Castro),Cuba视美国的古巴革命者,享年90岁 " />
<meta property=" og:type " content="
" />
<meta property=" og:type " content="
文章" />
<meta property=" og:url " content="
" />
<meta property=" og:url " content="
" />
<meta property=" og:url " content="
http://www.nytimes.com/2016/11/26/world/americas/fidel-castro-dies.html/ " />
<meta property=" og:image " content="..
" />
<meta property=" og:image " content="..
" />
<meta property=" og:image " content="..
//images/world/Fidel-Castro-obituary.jpg " />
...

...
" />
...

...

其他标签

article –命名空间URI: http://ogp.me/ns/article# : http://ogp.me/ns/article#

在线世界中思想和文章的分布。

每个网站使用的开放图谱发布标准架构允许使用自然语言处理(NLP)来在线识别虚假和误导性新闻报道的调查记者和数据科学家的上下文数据增加10倍

当前的方法是进入每个Web平台,查看它们使用的API是什么,为该网站创建一个解析器,然后应用NLP来了解该文章中的上下文信息。

发现原始来源,发布数据,文章的位置和语言。

发现有关该文章的更多信息。

了解文章中引用了哪些品牌,机构,法律,人,产品或服务。

发现有关作者的更多信息。

每个将加入并开始使用此标准的博客和组织都将能够更好地了解互联网上发布的内容。

如果您认识记者或博客作者,请与他们分享此文章。 我很想听听对此提案的其他意见。

这是一项正在进行的工作,请在此处加入对话

关于我

我是有组织犯罪和腐败报告项目( OCCRP )的一部分 ,负责数据分析和模式识别,以发现非结构化数据集中的腐败模式。

您可以在Medium Florin Badita 上在线找到我 AngelList Twitter ,L inkedin, O penstreetmap ,G ithub, Q uora, Facebook

有时我会在自己的博客上写 http://florinbadita.com/

More Interesting

作家修复电子邮件列表的6种简单方法

为有抱负的学者提供更多的期刊机会

参与度比不重复访客人数更重要

Wiser更广。

自出版第11部分:畅销书,最佳和其他列表。 谁在乎?

变绿或变绿并不容易

某人之子

技术疲劳会阻碍出版商回归吗?

WattPad的新投注可以偿还吗?

宝华传媒的露西·凯夫(Lucie Cave)参与了热火的创新Facebook Live实验

您是否需要网站?

如何写可信的人物

写作工具和机会

潜入:奠定基础

如果您还不是成功的作家,请不要惊慌