code4Lib 2016 小小书 XXshu

费城的code4Lib会议召开了将近两个月，而我在这里的博客帖子草稿也坐了很长时间。迟到总比不到好。

数据面板
这不是会议上最重要的事件，但我参与其中，并且我认为围绕一些公共文档可能很有用。会议计划委员会要求我主持会议前一个月的小组讨论。我从未主持过小组讨论，以前在code4lib上从未进行过小组讨论，因此这是一次全方位的学习经历。会议召开前的每个星期，我都通过视频聊天会见了程序委员会。他们提出了格式，该格式将包括在第二组会议期间就数据相关主题进行演讲的四位发言人。每个演讲者都会发表演讲，最后我们将进行大约15分钟的小组讨论。目的是让讨论以听众为主导，我将提出问题并将其摆在小组成员面前。我还决定我需要一堆可以在没有观众提问的情况下使用的问题。我从演示文稿摘要中得出了一组开放式垒球类型的主题/问题，我认为这可能是每个小组成员开始进行的体面对话。他们是：

工具与技能

工具很棒，可重用的工具更好，但是在某个时候需要自定义工具（例如python脚本与开放精简），您是否看到了向技能建设的转变，而不是在图书馆数据领域学习工具？

地方性与权威性

是否应该保留任何局部信息（术语，名称等），局部链接的概念在链接数据系统中是否已过时？（“数据云”的污染等）

发布与消费

如果我们要发布所有内容（URI），那么在链接环境中维护数据，征求更正，更新和修正的责任是什么。

错误（链接的打开错误）

即使是最好，最值得信赖的数据源也将出现错误，在这种链接环境中，错误可能对外部第三方系统造成一系列负面影响。这是否会使我们对数据质量的评估趋向于易于补救而不是正确性？

我将这些问题发送给了程序委员会以及小组成员，没有人真的有太多要说的。

我对主持人小组的了解：

确保每个人对面板的格式/形式都非常清楚。因为会议与大家习惯的会议截然不同，所以应该由谁来介绍演讲者或何时应该在舞台上出现混淆。每次会议时区会议都有一名主持人式的演讲者介绍人，这个人不知道小组的形式，所以当我意识到MC的工作正在介绍演讲者时却没有框架的内容。
不能保证观众的参与。会议室中实际上有300多人，他们共同提出了3-4个问题。这些问题通过IRC / Slack / Twitter提出。我主要根据原始文件提出问题和跟进。
主持人的工作是受众的媒介还是过滤器？一些听众的问题是有效的，但老实说不是很有趣，我在提出一个无聊的问题（有人特别想知道）或试图使其保持有趣之间是矛盾的。带我们去…
审核很难。您不仅需要提出一个问题，而且您实际上必须听取并处理/收集他们的回答，然后尝试思考为什么他们所说的很有趣，然后在扫描时将会议转移/联系到另一个小组成员观众参与。

会前会议：
我和我的NYPL同事就数据质量举办了会前研讨会。我专门针对2015年讲习班做了一个小型版本，围绕数据可视化，但这一次是将这些元数据质量过程中的数据可视化。我从讲习班中学到的东西：

不要以为在一两个小时内就能全面教授任何复杂的东西。
让人们熟悉概念以及如何开始进行某些工作，并为他们提供以后进行工作所需的材料。

例如，我无法在一个小时内教某人d3.js，尤其是因为大多数人对javascript一无所知。但是他们具有幻灯片，示例以及从何处开始的一些基本思想。我认为这是举办此类短期研讨会的最佳案例。

LOD一般主题：
我注意到，今年很多演讲都是针对发现平台的项目更新。人们基本上为他们的组织构建了新系统并对其进行了演示。其中包括Marmot图书馆网络，康奈尔大学以及盖蒂等一些人。一般主题是人们正在使用链接的数据，并开始在其发现层中使用该数据。

Markov4Lib：
今年，他们为演示提供了现场转录服务。基本上，您可以通过网络浏览器实时查看发言人的文本。让会议上所有文本都以非常高质量的格式发言的想法让我立即感到兴奋。因此，我每天都打开该选项卡，并每晚保存文本。有了所有这些数据，我想我可能会做一些分析模式的事情，例如《骑士新闻》挑战赛提交的内容。但老实说，由于某种原因，这对我来说现在很无聊。我决定采用另一种方式处理数据，使某些东西完全无用。

http://thisismattmiller.github.io/overheard-at-c4l2016/

我把所有的文本输入到一个马尔可夫链文本生成器中，它简单地从现有语料库中生成了新的，通常很可笑的句子。

还有更多要讨论的内容（例如关键说明），但是这些要点是今年对我而言突出的方面。