大数据 – 第8页小小书 XXshu

重新调整广告规模

我如何知道我们的数据价值数十亿美元一切始于一双鞋。我什至不喜欢。一次错位的点击使我跌下了丑陋的兔子洞。在接下来的几周里，这双鞋在网上无处不在。从我的Facebook提要到我正在阅读的文章，有鞋子…跟随我。听起来有点熟？大多数人意识到我们正在在线跟踪。有些公司跟踪我们的浏览习惯，并将这些信息卖给广告商数十亿美元。然后，广告商使用这些数据来定位广告，从而节省了数十亿美元。不那么直观的是我们如何成为在线上买卖最有价值的产品，以及有多少钱危在旦夕。为了了解我们如何到达这里，我们必须回到更简单的互联网前时代，回到80年代。 1985年，媒体与消费者之间达成了一项简单直接的交易。您将注意力转移到了网络电视模型中的内容上。这就是该模型的外观。网络电视型号进入数字时代，我们仍在关注内容。我们在网上免费享受的大多数事情都是通过我们旁边的广告来支付的。…

数据工程师和数据科学家之间有什么区别

本·罗戈扬（Ben Rogojan）我们最近在Reddit上进行了AMA。出现的最常见问题是数据科学家和数据工程师之间的区别是什么。因此，我们希望对此主题做更深入的介绍。很多数据专家职位听起来相似并且使用相似的工具，因此可能很难知道每个角色应该扮演什么角色。此外，较小的公司可能会限制他们可以雇用多少数据工程师或数据科学家。这意味着许多特定的任务和目标可能开始相互融合。这将使区分两个角色变得更加困难。因此，我们希望通过讨论数据工程师和数据科学家拥有的不同目标，思维方式，工具和背景，来探讨这两个职位的不同之处。在探讨差异之前，我们想做一个简短的序言。事实是，许多数据科学家和数据工程师将执行其他技术角色的任务。数据科学家可能需要开发ETL，数据工程师可能需要开发API和前端。因此，我们在下面指出的区别只是为了明确技术差异在哪里。通过DataCamp 目标数据工程师的目标更多是任务和开发。数据工程师构建自动化系统并建模数据结构，以使数据得到有效处理。…

Kafka和Python-让我们一起学习

根据其官方的Apache页面：“ Kafka用于构建实时数据管道和流应用程序。它具有水平可伸缩性，容错性，快速的核心性能，并在成千上万的公司中投入生产。根据正在使用Kafka的Stackshare.io的一瞥消息被组织为“主题”。生产者推送或发布消息。消费者拉信息。作为消费者，您订阅主题以获取消息。 Kafka在群集中运行，每个节点称为代理。一个主题可以有多个分区，这些分区分布在多个代理中。您可以并行化使用者以从不同的主题分区中提取。每个分区实质上是一个顺序写入的日志文件。您可以指定存储数据的时间。每个代理都有许多分区，可以在其他代理之间复制。每个分区都有一个领导者，这是发送写入的地方。可以设置一致性和可用性。当使用者使用来自Kafka的消息时，它将使用消息偏移量来跟踪已使用了哪些消息。如果它消耗了主题中的前50条消息，则当收到新消息时，它将从第50个偏移键开始，并开始消耗那些未读的消息。…

大数据及其投资前景：知识整合之路—要求摘要

目前，特别图书馆协会阿拉伯湾分会（SLA / AGC）第24届年会暨展览的摘要征集工作已经开始。会议将于2018年3月6日至8日在阿曼马斯喀特举行，主题为“大数据及其投资前景：知识整合之路”。 RealKM杂志很高兴参加了2017年3月在巴林举行的上届SLA / AGC会议，图书馆和信息服务（LIS）在知识管理中的作用日益重要。特殊图书馆协会（SLA）是一个专门的全球性组织，成立于1909年，总部位于美国。它采用了信息和图书馆领域的专家和专业人员的创新。 SLA为83个国家/地区的信息行业的12,000多名成员提供服务，其中包括公司，学术和政府信息专家。 SLA通过学习，奖励措施和联网计划来促进和加强其成员。阿拉伯海湾分会在阿美图书馆工作人员的倡议下于1992年成立，后来阿拉伯海湾地区的许多专业人员加入了该分支机构。巴林新闻部采用了该分支机构，因此在巴林王国设立了总部。

快速数据科学出版物的标记

本杰明·本福特（Benjamin Bengfort）图片来源：https：//atom.io/packages/markdown-preview 科学的中心课程是，要理解复杂的问题（甚至是简单的问题），我们必须努力解放教条的思想，并保证发表，矛盾和试验的自由。卡尔·萨根（Carl Sagan）：《千亿万：千禧年边缘的生死思潮》作为数据科学家，很容易陷入细节。我们正忙于实现Python和R代码以从数据中提取有价值的见解，训练有效的机器学习模型或将分布式计算系统整合在一起。这些任务中的许多任务，特别是与数据摄取或争用有关的任务，虽然很费时，但却是数据科学家日常工作的基础。但是，我们经常忘记的是，我们不仅必须是数据工程师，而且还必须是数据科学知识体系的贡献者。如果数据产品从数据中获取价值并生成更多数据作为回报，那么数据科学家将从先前发表的作品中获取其价值，并应生成更多出版物。确实，机器学习无处不在的原因之一（请参阅与Stack on Overflow上的ML相关的许多带有Python标签的问题）是由于科学研究的精心撰写的博客文章和工具（例如Scikit-Learn）而得以快速实施的。各种算法。尤其是Google，通过发布有关其方法论的系统论文来推动数据产品的增长，从而能够创建诸如Hadoop和Word2Vec之类的开源工具。通过为软件和建模建立坚实的基础，我们能够更快地获得更大的结果。探索，讨论，批评和实验都使我们能够通过利用数据社区的集体才智来拥有新思路，编写更好的代码并实现更好的系统。…

Wallaroo Labs正在阅读的内容（2018年8月14日）

对于某些公司来说，八月很慢，但Wallaroo Labs却不在这里-我们正忙于进行一些重要的产品改进，这些改进将在未来几个月内发布。请继续关注有关其他集成和工具的更多信息，以使开发经验更加自然。同时，这是我们遇到的一些有趣的读物。 *** “针对那些相信某些新事物可以解决所有问题的人们，提供了’冷水淋浴’论文集。”通过@ casio_juarez “我的朋友Alvaro（推特上的@old_sound）写了有关文档以及我们记录的内容和我们忘记的内容的信息。”通过@ casio_juarez “这次是与Pulumi一起使用的更多’warm lambda’解决方法。”通过@ simonzelazny “有关部署机器学习模型的有趣论文综述。”通过@ casio_juarez “可以通过一种有趣而有趣的方法来加快JSON解析速度，这种方法可用于需要提前查询字段的情况。”通过Sean T. Allen ***…

Ladyboss，这就是为什么您应该学习大数据的原因。

由于一无所知，我决定攻读大数据和业务分析硕士学位。毫不奇怪，我吓坏了！这是我一生中第一次无法在考试中依靠“常识”。最重要的是，这是我的名字第一次以女性身份而脱颖而出。在100多名学生中，如果您能找到我们20个人，则很幸运。学习大数据需要学习至少3种编码语言，执行复杂的统计计算并掌握我从未接触过的无数技术。没有女士上司的支持，我很快意识到自己一生都在努力。令人高兴的是，我们采取的第一门课程“大数据和分析入门”加强了我们这一代男女平等必须克服我们的恐惧并接受商业世界的新现实的原因。这是教授说的一些最有趣的事情：这个大师不是关于大数据，而是关于人工智能。我们将如何用它来改变世界。我们的大脑不了解指数增长，但这就是数据增长的方式。数字化正在将世界转换为1和0的数字-很少有人可以翻译。数据爆炸（图像版权未知）数字化有3种效果：物化，取消货币化和合并。（我将在以后的文章中对此进行解释）…

图书馆作为大数据平台

纽约州摄政技术政策与实践委员会（TPPC）的一年主题是数据。鉴于摄政者对教育的责任，理事会的重点是教育数据，而不仅仅是学校的数据。除教育外，他们还在考虑通过图书馆，博物馆，图书馆，公共广播等提供或可以提供的数据。在这种背景下，纽约市图书馆理事会执行主任内特·希尔和我（我在麦德龙董事会主席的职务）应邀在小组今天开会时就此主题作演讲。部分原因是因为麦德龙（METRO）作为纽约地区各种图书馆，博物馆，档案馆以及更广泛的信息专业人员的保护伞组织。他们还想知道麦德龙在处理数据和数字内容（甚至开放数据）方面的领导作用。（内特·希尔（Nate Hill）来纽约之前在查塔努加公共图书馆的开放数据平台上的工作也很重要。）当然，这对我来说也不是新话题，就像我三年前在“开放政府中图书馆的作用是什么？”中写道的那样。简而言之，是我们今天提出的一些主要思想： -> K-12教育已经开始了大数据和分析。不幸的是，孩子们进行的所有测试都是这种分析应用程序的一种体现。但是教室还有其他很好的数据来源，例如NOAA提供的数据。 ->数据还有其他用途。它可以激励学生并鼓励他们保持好奇心。怎么样？如果不是对大多数主题使用标准的远程示例文本，而是从收集的数据以及有关其居住社区的数据中提取示例。…

数字屏幕的背后：行业最有价值客户的阅读习惯

我们发现自己并不是在2008年开始的革命之门上，而是在门内。灾难性的预言消失了，出版和图书业的巨大变化和重塑得到了解决，现在，我们在2016年处于稳定状态。如今，数字化每年跃升数百个百分点的日子已经一去不复返了。现在，电子书已占图书总销量的20％至30％，更多取决于类别（例如，神秘，浪漫或情色），而在儿童图书或其他高度视觉化的类别中则更少。处于这种稳定状态或在全球范围内被广泛采用的企业的一大优点是反思的机会。数字技术所带来的巨大飞跃是对读者阅读方式的精确理解。从历史上看，我们可以根据评论家或评委会的文学才华，销售业绩以及客户的评价来评价一本书，以了解它的受欢迎程度，但现在我们有机会从第三个维度收集见解：读这本书或他们是否完全读过。匆匆忙忙地读了哪些书，失去了动力，哪些书被抛弃了？汇总的阅读数据使我们对谁是最好的读者以及他们想要的读者有深刻的了解。作为数字零售商，我们会考虑很多读者。而且，我们有很多-接近2800万。我们在18个国家/地区设有商店，以97种语言出售书籍，并且是全球第二大电子阅读设备制造商。另外，我们是唯一专注于读者的全球参与者。所有这些意味着我们在书商尝试确定读者想要的内容时会花费大量时间。我们知道没有一个读者。因此，在成为世界上最好的书商的目标下，鉴于所有工具，我们会尽力了解它们我们通过多个数据点对读者进行细分和研究，以了解他们的身份，年龄，购买决定的动机以及他们的动机，无论是喜欢的作者写的新书，度假还是多次购买提供，事件，评论，一年中的时间。我们花费大量时间思考他们是谁，他们在阅读什么以及为什么在阅读它。…