数据实践:可能是常见原因

*在数据交叉口提供:迈阿密大学,2018年3月2日*

感谢Paige,Alberto和Cameron的精彩活动。 我上次错过了DH + DJ,对此我感到非常遗憾。 参与将图书馆员,数据科学家,新闻工作者和统计人员的工作汇聚一堂的对话,我感到很荣幸。 就我而言,我将谈论一种称为“数据实践”的东西,并将努力将其框架化为加入我们工作的“可能是共同原因”

我确实想指出我将在演讲中讨论一些困难的内容,鉴于最近在帕克兰(Parkland)的枪击事件,这尤其具有挑战性。 为了清晰起见,将讨论两次大规模枪击事件。 如果您觉得需要离开,我会明白的。 在讨论之前,我将再次标记此内容。

在本演讲中,我将讨论4个主题。

  1. 首先,我将介绍数据实践的概念,并详细说明“可能是常见原因”。
  2. 其次,我将在“现在和现在”中介绍数据实践的需求。
  3. 第三,我将介绍集合作为库中数据的概念,并建议它是我们之间进行协作的主要载体。
  4. 最后,我将提供一些具体建议,这些建议为我们培养广泛数据实践的集体能力铺平了道路。

当我谈论代理自我实现时,我指的是社会的一个广泛领域,具有技能和性格,可以批判性地与驱动我们讲述的故事的数据互动。 在这样的时代里,我们无法承担被学术恋物癖或专业法术铸造的降级的风险。

在我作为图书馆员的日常工作中,我寻求培养探索世界的能力-它所提供的内容以及它可能试图带走的一切。

这是一项责任,在各个学科以及学术和专业探究的多个层面上都发挥着作用。

在过去的几年中,我花费了大量时间来尝试帮助人们查看周围世界中的数据。

可以理解的是,数字空间中呈现的物理体验的明显替代比看起来要多得多。

大部分对话取决于将书本等通常理解的东西转换成数据。

通过对Underwood,Bamman和Lee的近期工作进行讨论来支持概念性动作,该尝试试图评估170多年来英语小说中的性别特征。

同样,我把看似卑微的百科全书维基百科(Wikipedia)视为一个高度可变的竞赛网站。

我通过讨论利用Wikipedia作为数据的实验工作来说明比赛。 例如,埃德·萨默斯(Ed Summers)与“国会编辑”(Congressional Edits)的合作-一个Twitter机器人,监视与国会IP范围相关联的维基百科的编辑。

它是一场关于意义之战的实时报告,暗示着比赛似乎在网络上平凡的互动之下嗡嗡作响。

您可以说我的工作主要集中在可能性的培养上。

现在,我将讨论在“这里与现在”的挑战下,我如何看待这项工作。

培养可能的工作似乎很棒,而且确实如此。 我很享受。

但是,自从正确的开发以来,过去几年来我一直试图培养的面向数据的类型具有新的紧迫性。

集体的共识是受到攻击。

而且,这种攻击是在没有对数据的理论和实践的共同理解的情况下无法进行的。

没有这种共识,就个人和社会而言,我们将会迷失。

当我们迷路时,随之而来的是我们将失去识别并建立我们想要实现的世界的能力。

我们放弃可能性,而不是参与其不断实现。

去年9月,我在太平洋边缘的加利福尼亚大学圣巴巴拉分校担任人文数据策展人。

9月底,我和我的伴侣一起定居在莫哈韦沙漠的前海底。

更具体地说,我搬到了拉斯维加斯。

如所承诺的,我要标记我将要讨论敏感内容。

具体来说,我将谈论两次大规模枪击事件。 我待会儿。

我在拉斯维加斯大学工作的第一天是10月1日枪击事件发生的第二天,其中58人丧生,一架使用多架AR-15的单身白人男性受伤800多人。 动机未知。

活动结束后不久,UNLV图书馆与该地区的文化遗产组织开始共同努力,将活动记录下来,以备公众记忆和未来研究之用。

当发生这样的事件时,人们通常不会想到的是所产生证据的分量。

它是一个物理重量。 对于负责保存这些材料的档案工作者和图书馆员来说,也是一种情感上的收获,这种获取通常需要多年与创伤的日常互动。

现在在纽约大学的图书馆员同事阿什莉·梅诺(Ashley Maynor)制作了一部纪录片,名为“故事的故事”。 故事讲述了桑迪·胡克(Sandy Hook)枪击事件的物理遗产。 梅诺在桑迪胡克(Sandy Hook)纪录片上的工作部分是由于她渴望在几年前在那里进行大规模拍摄期间处理自己在弗吉尼亚理工大学的经历而产生的。

当然,除了这些悲剧的物理遗产外,越来越多的我们需要处理它们留下的数据。

在UNLV,我负责收集与10月1日枪击案有关的Twitter数据。

此数据集中的数百万条推文。 许多断断续续的陈述扩展了想象力。

当我处理它们时,我得到的最明显的收获就是每种话语都附有情感。

根据这些经验,我创建了以下该数据集中整个表情符号的可视化视图。

到目前为止,已超过80万。 23分钟9秒即可完成课程。

我可能会淹没在这些数据中。

很难想象日常工作不是数据的人的经历。

然而,这是我们的文化记录。

我是档案专业人士一致的专业回应的一部分,以开发出记录此类事件的最佳实践。

我要说的是,当您醒来第一次全国悲剧工作组会议时,这是一个悲伤的日子。

我将让工作组的每个成员带给工作的原因和经验让您想象。

工作队的工作主要是为了开发最佳实践来记录这些悲剧。

它较少关注于开发可用于处理这些事件所遗留下来的数据并从中获取含义的方法。

对于我来说,这是我希望看到的缺口,填补了数字人文主义者,数据科学家,统计学家和数据记者之间的合作。

通过结合我们的努力,我认为我们可以为广泛实现的数据实践做出重大贡献,这是帮助人们处理这些事件以及其后所讲述的故事所不可或缺的。

首先,我希望我们共同解决这些问题。

我们的合作将如何进行? 这是一个不确定的问题。

从调整工作的意义上来说,这是不确定的,但是在我不确定我们中谁能确定如何更广泛地使用数据的理论和实践上,这也是不确定的。

没有确切的答案不应成为我们入门的障碍。

Braess的悖论与Floridi的评论一致。

一次又一次的悖论是,创造出最直接的路径来解决给定的问题实际上会创建一个效率更低的系统。

矛盾的是,以健康的不确定性为基础的多种解决方案实际上可能是理想的。

对我来说,悖论表明了很大的可能性。

现在,我将介绍馆藏作为数据的概念以及诸如图书馆,档案馆和博物馆之类的文化遗产组织一直致力于的工作。

我认为这是我们大家之间合作的主要载体。

当我谈到收藏作为数据时,我指的是文化遗产机构持有的所有收藏-数字化和天生的数字化。

其中包括书籍,艺术品和录音。

它还包括我们当代知识环境中不太常用的产品-网络档案,社交媒体数据,3D渲染,软件和代码。

作为数据的集合是有序信息,以数字方式存储,并在满足先前两个条件的情况下固有地适合于计算。

该概念旨在促进面向收藏的方向,从而可以在计算上与它们合作。

使用包括但不限于文本挖掘,数据挖掘,网络分析和机器学习的方法和方法。

这项工作受到马丁·穆勒(Martin Mueller)所表达的情感的指导,“每个代理人都有其自己的查询潜力,出于某些目的,它可能会超过原始查询。”

我与Laurie Allen,Stewart Varner,Sarah Potvin,Hannah Frost和Elizabeth Russey Roke一起在这个领域做了很多宣传工作,这是通过IMLS支持的一个名为“始终已经计算:数据收集”的项目进行的。

我们寻求为广泛的文化遗产组织开发手段,以开发和提供对馆藏的数据访问。

作为该工作的一个示例,我想参考MIT图书馆实验,该实验为其论文和论文提供文本和数据挖掘服务。

为什么要使用论文和论文的API?

首先,图书馆目睹了刮除馆藏的尝试,这些馆藏的基础设施并非旨在支持该级别的访问。

这些年来,动机主要是由对潜在重要知识产权的感知所推动的。

其次,校园中各个学科的高级管理人员要求图书馆提供类似门户的访问权限,以更好地促进馆藏的计算使用。

因此诞生了数据处理和API开发的实验。 我鼓励您看一看,我确定那里的人们会很高兴听到您的反馈。

当然,并非所有这些工作都需要大量资源。

它也没有太着重于某些难以访问的计算工作形式。

您在迈阿密大学的同事们还通过生成西班牙语的数据集(从该大学的一份历史悠久的报纸衍生而来),绘制了一个以集合作为数据的初始实验。

我想这可能是支持本科课堂中使用计算方法进行入门实验的主要材料。

在Always Always计算项目中,我们意识到这项工作构成了技术和社会挑战。

这不仅仅是整理API规范的问题。

相反,它需要与一系列利益相关者进行严格的对话,以识别与特定社区需求相适应的挑战和机遇。

通过与来自各种机构,学术界和专业协会的代表进行对话,我们为解决这一挑战的社会和技术方面付出了很多努力。

NICAR指日可待,我们非常高兴有机会向记者学习更多信息。

追溯到2015年,Always Already Computational的主要灵感之一是Buzzfeed News的Jeremy Singer-Vine和同事正在用可再现的数据新闻进行的一些工作。

在学术领域,可重现性和数据通常在一起使用,因此并不是特别新颖。

引起我兴趣的是,这种新闻业是否预见了广大公众对数据流利性的需求。

它让我在想:

读者是否会像学术研究人员一样期望获得访问数据和代码,从而推动新闻业的发展?

他们是否愿意在ipython笔记本中运行脚本来测试核心声明?

最后我想:

这个读者是谁?

谁会想要这样的东西?

谁将负责帮助他们-从概念上和实践上确定他们可能想要这样的东西-帮助他们利用它?

回到大学社区,我们在人文课堂的背景下找到了Buzzfeed的工作的推论。

我将简要介绍一下Tiffany Chan的“作者功能”。

Chan是英语专业的硕士生,他利用机器学习来模仿Grant Allen的风格。

这项研究本身就很有趣,但是出于我们的目的,我对关注过程更加感兴趣。

查看记录过程和解释的惯例,我们发现Singer-Vinve在Buzzfeed的工作之间有着明显的相似之处。

Chan提供了对代码的访问权限-她详细记录了脚本的功能以及神经网络的承诺和陷阱。

Chan最后将详细分析其分析所依据的主要数据。

她使用文化遗产收藏作为数据来推动这项工作向前发展。

我在Singer-Vine + Chan的比较中看到的是,图书馆有可能支持理论和实践的沙盒化,以处理广泛为我们社会各阶层做准备的数据……参与以支持数据和过程为中心的大规模传播索赔。

我认为我们大家可能都同意,在当前的气候中非常缺乏证据和解释它的手段。

这种缺乏的后果在范围上令人震惊,并有可能触及我们所有人。

通过联合力量,我们可以为此共同努力。

最后,我将转向我希望看到的各种伙伴关系的讨论。

我希望我们能在联合实验方面更多地合作,以证明数据可能带来的好处。

例如,国会图书馆最近接待了一名住所研究员和一名住所创新者。

实验产生了纯净的输出,但是持久的效果超出了最初的光泽。

在我看来,面向公众受众的实验性工作有助于提高人们对处理数据的理论和实践的兴趣。

杰尔·索普(Jer Thorp)进行了以下实验,该实验利用了有关国会图书馆书籍的数据。

通过了解如何查看数据的潜力,Jer能够创建一种与馆藏互动的新形式。

这是一个激发想象力的例子,它使我们想知道还有什么其他可能,并且这样做有可能激发人们通向学习更多关于数据处理的理论和实践的道路。

我们迫切需要在培养数据伦理方面成为伙伴。

让我们将诸如Bergis Jules(加州大学河滨分校的大学档案管理员)和Yvonne Ng(见证人)之类的人士与数据科学家,新闻工作者和统计学家一道。

让我们建立伙伴关系,以那些经常被研究和撰写但很少表达意见的社区的需求为中心。

另外,我不需要这么说,但是这些人需要为此工作获得报酬。

道德是专业知识。

付钱给他们。

句号

伯吉斯·朱尔斯(Bergis Jules)致力于一个名为“立即记录”的强大项目,这是社交媒体归档工作,在迈克尔·布朗去世后发生的弗格森抗议活动中上升了。

该项目开发的工具随后被用于记录在巴黎发生的Bataclan恐怖袭击,妇女游行,黑人生活问题以及10月1日在拉斯维加斯发生的枪击事件。

除了仅捕获数据之外,像Bergis这样的人还试图找出一种道德的数据处理方法,而机构审查委员会通常对此不提供任何帮助。

我希望看到更多专注于记录和满足社区需求的合作伙伴关系。

麻省理工学院提供了一个很好的例子。

麻省理工学院公共图书馆创新交流计划是一项媒体实验室计划,旨在与公共图书馆员合作,共同开发新的创造性学习计划。

向奈特基金会大声喊叫支持。

最后,我在另一种情况下对此进行了争论,但我不确定它是否受欢迎,但是我很乐意看到更多的资助者支持美国的跨部门人员交流。 欧盟通过玛丽·斯科洛多夫斯卡·居里(Marie Sklodowska-Curie)行动支持了这一点。 它允许学术界和私营部门实体之间的临时人员交流。

简而言之,我们需要更多彼此的知识。

在学术方面,我们经常会竭尽全力试图了解在Twitter和Facebook等私营部门平台上传输的数据。 努力开发工具,及时了解API和数据模型的变化,并在政策方面进入不确定的空间。

在没有更多知识的情况下,我们如何在这个领域帮助用户?

我们需要更多地了解这些捕捉并传达当代文化记录的基础社会平台。

我在这次谈话中说了很多数据。 我提到了诸如文本挖掘,数据挖掘和网络分析之类的东西。

尽管我的目标很明确,但我可能还是偏离了漂亮的学术语言。

我们一直以来所说的这种对话是什么?

在某种程度上,我认为这是一个学术问题,没有抓住重点。

我们必须继续集中精力应对当前的挑战。

数据无处不在,我们仍然是唯一了解数据的人。

话虽如此,我真的不在乎它是否被称为数据实践,只要我们决定调用它来以增加代理的方式收集我们的精力即可。

代理谁? 代理所有人。

谢谢。