改变出版界—创建一个开放图标准
通过将此类上下文信息作为元数据添加到文章中,我们将创建一个世界上所有书面知识的图表。 杰尔·索普(Jer Thorp)进行的这种精美的可视化只是说明了拥有数据后您可以做的一件事。
大众科学杂志的出版商要求我制作一个可视化的文章,以探讨其出版物的档案。 PopSci已有近140年的历史。 我与马克·汉森(Mark Hansen)合作,最终制作了一张图片,展示了自杂志创办以来,不同的技术和文化术语在该杂志中的使用和使用。 —杰尔·索普
问题在于,现在这是一个手动过程,我可以抓取一个网站,应用自然语言处理(NLP)并提取数据。
之后,第二个想要做的人必须重新开始。 如果我们承担将这些信息添加到撰写本文的人员的任务,则该信息将可供访问世界上任何已发表文章的元数据的每个人使用。
第1部分。历史
大多数人都熟悉HTML标记是什么。 通常,HTML标签会告诉浏览器如何显示标签中包含的信息。 例如,
Avatar
告诉浏览器以标题1格式显示文本字符串“ Avatar”。 但是,HTML标记未提供有关该字符串的含义的任何信息-“头像”可能是指非常成功的3D电影,或者可能是一种个人资料图片,这会使搜索更加困难引擎以智能方式向用户显示相关内容。
Schema.org提供了一组共享词汇,网站管理员可以使用这些词汇以主要搜索引擎可以理解的方式标记他们的页面:Google,Microsoft,Yandex和Yahoo!。
为什么要使用微数据?
您的网页具有人们在阅读网页时理解的潜在含义。 但是搜索引擎对这些页面上正在讨论的内容了解有限。 通过在网页的HTML中添加其他标签(标签说:“嘿,搜索引擎,此信息描述了本文的特定文章,地点或个人”,您可以帮助搜索引擎和其他应用更好地理解您的内容,并以有用且相关的方式对其进行索引。 微数据是随HTML5引入的一组标签,可让您执行此操作。
1a。 为什么要使用微数据?
您的网页具有人们在阅读网页时理解的潜在含义。 但是搜索引擎对这些页面上正在讨论的内容了解有限。 通过在网页的HTML中添加其他标签(例如,“嘿搜索引擎,此信息描述了此特定电影,地点,人物或视频”的标签),可以帮助搜索引擎和其他应用更好地理解您的内容并以有用且相关的方式进行显示。 微数据是随HTML5引入的一组标签,可让您执行此操作。
如果我们有这些数据怎么办?
2009年,杰尔·索普(Jer Thorp)创建了这个令人惊叹的可视化文件,它显示了NyTimes使用NyTimes API在1984年至2009年期间撰写的有关美国总统的文章数量随时间的演变。
使用开放图谱发布标准 ,任何出版物都可以提供此信息,从而使数据科学家可以更好地了解构成我们世界的事件和行动。
1b。 itemscope和itemtype
让我们举一个具体的例子。 您有一篇关于唐纳德·特朗普的文章-一篇文章,其中包含引用来源的链接,文章中有关人员的信息,等等。 您的HTML代码可能如下所示:
特朗普与世界民粹主义的兴起
作者:史蒂夫·贾斯汀 在过去几周[...] 来源
首先,请确定页面中与“电影头像”“有关”的部分。 为此,请将itemscope元素添加到包含有关项目信息的HTML标签中,如下所示:
<div itemscope >
特朗普与世界民粹主义的兴起
作者:史蒂夫·贾斯汀
在过去几周[...]
来源
通过添加itemscope
,您可以指定
...
块中包含的HTML与特定项目有关。
但是,指定正在讨论的项目而不指定项目的类型并不是全部有用。 您可以在itemscope
之后立即使用itemtype
属性指定项目的类型。
<meta property =“ og:isBasedOn ” content =“ http://cnn.com/
OriginalSource.html “>
-------------------------------------------------- -------
<div itemscope itemtype =“ https://schema.org/NewsArticle ” >
特朗普与世界民粹主义的兴起
作者:史蒂夫·贾斯汀
在过去几周[...]
这指定div中包含的项目实际上是新闻文章,如schema.org类型层次结构中所定义。 项目类型以URL的形式提供,在这种情况下为http://schema.org/NewsArticle
。
第2部分。添加有关您所发布内容的元数据。
HTML 元素
元素是元数据(有关数据的数据)的容器,并放置在标记和标记之间。
HTML元数据是有关HTML文档的数据。 不显示元数据。
元数据通常定义文档标题,字符集,样式,链接,脚本和其他元信息。
HTML 元素
元素定义页面的作者:
<meta name =“ 作者 ” content =“ Hege Refsnes”>
第3部分。开放图谱发布标准
Open Graph协议使任何网页都可以成为社交图中的丰富对象。 例如,它在Facebook上用于允许任何网页具有与Facebook上任何其他对象相同的功能。
美国排名前100的在线NewsPaper中有75%已在使用Open Graph
我查看了美国排名前100的报纸,看看其中有多少已经在使用Open Graph。
现在,它们仅提供最低要求:
文章的标题 , 描述和类型 。
这里的一个大例外是NyTimes ,每篇文章都包含有关该文章中的人物,该文章的位置或地理位置,该文章中所引用的国家或地区等的信息。
基本元数据
要将网页变成图形对象,您需要向页面添加基本元数据。 您将其他
标记放置在网页的
中。 每个页面的四个必需属性是:
-
og:title
–应在图形中显示的对象标题,例如“ Fidel Castro Dies”。
-
og:type
–对象的类型,例如“文章”。 根据您指定的类型,可能还需要其他属性。
-
og:image
–图像URL,它应该表示图形中的对象。
-
og:url
–将在图形中用作其永久ID的对象的规范URL,例如“ http://www.nytimes.com/2016/11/26/world/americas/fidel-castro-dies.html” 。
例如,以下是《纽约时报》的Fidel Castro Dies的Open Graph协议标记:
Fidel Castro死
<meta property=" og:title " content="
<meta property=" og:title " content="
<meta property=" og:title " content="
菲德尔·卡斯特罗(Fidel Castro),Cuba视美国的古巴革命者,享年90岁 " />
<meta property=" og:type " content="
" />
<meta property=" og:type " content="
文章" />
<meta property=" og:url " content="
" />
<meta property=" og:url " content="
" />
<meta property=" og:url " content="
http://www.nytimes.com/2016/11/26/world/americas/fidel-castro-dies.html/ " />
<meta property=" og:image " content="..
" />
<meta property=" og:image " content="..
" />
<meta property=" og:image " content="..
//images/world/Fidel-Castro-obituary.jpg " />
...
...
" />
...
...
其他标签
article
–命名空间URI: http://ogp.me/ns/article#
: http://ogp.me/ns/article#
-
article:published_time
– datetime –文章首次发布的时间。
-
article:modified_time
– datetime –文章的最后更改时间。
-
article:author
–配置文件数组–本文作者。
-
article:section
–字符串–高级部分名称。 例如技术
-
article:tag
–字符串数组–与本文关联的标记词。
-
copyright
–字符串–文章的版权类型。
-
photoSource
–字符串数组–本文使用的照片来源出版物或名称。
-
photoSourceURL
– URL数组–与本文关联的照片的网址。
-
language
–字符串–本文中使用的主要语言。
-
article:tag
–字符串数组–与本文关联的标记词。
在线世界中思想和文章的分布。
每个网站使用的开放图谱发布标准架构允许使用自然语言处理(NLP)来在线识别虚假和误导性新闻报道的调查记者和数据科学家的上下文数据增加10倍 。
当前的方法是进入每个Web平台,查看它们使用的API是什么,为该网站创建一个解析器,然后应用NLP来了解该文章中的上下文信息。
发现原始来源,发布数据,文章的位置和语言。
-
og:datePublished
–文章发布的日期。
-
og:isBasedOn
–在创建此资源时使用的资源。 可以为多个来源重复该术语。
-
og:locale
–标记这些标签的语言环境。格式为language_TERRITORY
。 默认值为en_US
。
-
og:contentLocation
–内容中描述或描述的位置。
发现有关该文章的更多信息。
-
article:author
–配置文件数组–本文作者。
-
article:section
–字符串–高级部分名称。 例如技术
-
article:tag
–字符串数组–与本文关联的标记词。
-
og:publisher
了解文章中引用了哪些品牌,机构,法律,人,产品或服务。
-
og:institutionBrandsCited
–文章中引用的机构或品牌。 例如,白宫。
-
og:institutionBrandsCitedWikidata
–本文中引用的机构或品牌的Wikidata ID。
-
og:PropositionLawCited
–本条中引用的主张或法律。 例如,提案51,CA。
-
og:PropositionLawCitedWikidata
–本文中引用的命题或法律的Wikidata ID。
-
og:personsCited
–文章中引用的人员。
-
og:personsCitedLink
–引用的用户的个人或专业链接。
-
og:productsServicesCited
–文章中引用的人员。
-
og:productsServicesCitedWikidata
–引用的用户的个人或专业链接。
发现有关作者的更多信息。
-
og:article:author
作者姓名。
-
og:article:author:feed
–作者在此站点发布的帖子的RSS feed。
-
og:article:author:link
–作者个人或专业页面。
每个将加入并开始使用此标准的博客和组织都将能够更好地了解互联网上发布的内容。
如果您认识记者或博客作者,请与他们分享此文章。 我很想听听对此提案的其他意见。
这是一项正在进行的工作,请在此处加入对话
关于我
我是有组织犯罪和腐败报告项目( OCCRP )的一部分 ,负责数据分析和模式识别,以发现非结构化数据集中的腐败模式。
您可以在Medium Florin Badita 上在线找到我, AngelList , Twitter ,L inkedin, O penstreetmap ,G ithub, Q uora, Facebook
有时我会在自己的博客上写 http://florinbadita.com/