快速数据科学出版物的标记

本杰明·本福特(Benjamin Bengfort) 图片来源:https://atom.io/packages/markdown-preview 科学的中心课程是,要理解复杂的问题(甚至是简单的问题),我们必须努力解放教条的思想,并保证发表,矛盾和试验的自由。 卡尔·萨根(Carl Sagan) :《千亿万:千禧年边缘的生死思潮》 作为数据科学家,很容易陷入细节。 我们正忙于实现Python和R代码以从数据中提取有价值的见解,训练有效的机器学习模型或将分布式计算系统整合在一起。 这些任务中的许多任务,特别是与数据摄取或争用有关的任务,虽然很费时,但却是数据科学家日常工作的基础。 但是,我们经常忘记的是,我们不仅必须是数据工程师,而且还必须是数据科学知识体系的贡献者。 如果数据产品从数据中获取价值并生成更多数据作为回报,那么数据科学家将从先前发表的作品中获取其价值,并应生成更多出版物。 确实,机器学习无处不在的原因之一(请参阅与Stack on Overflow上的ML相关的许多带有Python标签的问题)是由于科学研究的精心撰写的博客文章和工具(例如Scikit-Learn)而得以快速实施的。各种算法。 尤其是Google,通过发布有关其方法论的系统论文来推动数据产品的增长,从而能够创建诸如Hadoop和Word2Vec之类的开源工具。 通过为软件和建模建立坚实的基础,我们能够更快地获得更大的结果。 探索,讨论,批评和实验都使我们能够通过利用数据社区的集体才智来拥有新思路,编写更好的代码并实现更好的系统。…

图书馆作为大数据平台

纽约州摄政技术政策与实践委员会(TPPC)的一年主题是数据。 鉴于摄政者对教育的责任,理事会的重点是教育数据,而不仅仅是学校的数据。 除教育外,他们还在考虑通过图书馆,博物馆,图书馆,公共广播等提供或可以提供的数据。 在这种背景下,纽约市图书馆理事会执行主任内特·希尔和我(我在麦德龙董事会主席的职务)应邀在小组今天开会时就此主题作演讲。 部分原因是因为麦德龙(METRO)作为纽约地区各种图书馆,博物馆,档案馆以及更广泛的信息专业人员的保护伞组织。 他们还想知道麦德龙在处理数据和数字内容(甚至开放数据)方面的领导作用。 (内特·希尔(Nate Hill)来纽约之前在查塔努加公共图书馆的开放数据平台上的工作也很重要。) 当然,这对我来说也不是新话题,就像我三年前在“开放政府中图书馆的作用是什么?”中写道的那样。 简而言之,是我们今天提出的一些主要思想: -> K-12教育已经开始了大数据和分析。 不幸的是,孩子们进行的所有测试都是这种分析应用程序的一种体现。 但是教室还有其他很好的数据来源,例如NOAA提供的数据。 ->数据还有其他用途。 它可以激励学生并鼓励他们保持好奇心。 怎么样? 如果不是对大多数主题使用标准的远程示例文本,而是从收集的数据以及有关其居住社区的数据中提取示例。…

数字屏幕的背后:行业最有价值客户的阅读习惯

我们发现自己并不是在2008年开始的革命之门上,而是在门内。 灾难性的预言消失了,出版和图书业的巨大变化和重塑得到了解决,现在,我们在2016年处于稳定状态。 如今,数字化每年跃升数百个百分点的日子已经一去不复返了。 现在,电子书已占图书总销量的20%至30%,更多取决于类别(例如,神秘,浪漫或情色),而在儿童图书或其他高度视觉化的类别中则更少。 处于这种稳定状态或在全球范围内被广泛采用的企业的一大优点是反思的机会。 数字技术所带来的巨大飞跃是对读者阅读方式的精确理解。 从历史上看,我们可以根据评论家或评委会的文学才华,销售业绩以及客户的评价来评价一本书,以了解它的受欢迎程度,但现在我们有机会从第三个维度收集见解:读这本书或他们是否完全读过。 匆匆忙忙地读了哪些书,失去了动力,哪些书被抛弃了? 汇总的阅读数据使我们对谁是最好的读者以及他们想要的读者有深刻的了解。 作为数字零售商,我们会考虑很多读者。 而且,我们有很多-接近2800万。 我们在18个国家/地区设有商店,以97种语言出售书籍,并且是全球第二大电子阅读设备制造商。 另外,我们是唯一专注于读者的全球参与者。 所有这些意味着我们在书商尝试确定读者想要的内容时会花费大量时间。 我们知道没有一个读者。 因此,在成为世界上最好的书商的目标下,鉴于所有工具,我们会尽力了解它们 我们通过多个数据点对读者进行细分和研究,以了解他们的身份,年龄,购买决定的动机以及他们的动机,无论是喜欢的作者写的新书,度假还是多次购买提供,事件,评论,一年中的时间。 我们花费大量时间思考他们是谁,他们在阅读什么以及为什么在阅读它。…