为什么科学家需要开始更好地管理数据

Nebulab (一家为科学家建立数据管理平台的本地技术公司)首席执行官Guillermo Vela向得克萨斯大学圣安东尼奥分校健康科学中心的研究生和博士后致辞,谈到实施数据管理计划的重要性。 “你们当中有多少人非常自信,他们可以相对轻松地找到,理解十年,五年甚至三年前的数据?” Vela问学员。 Vela解释说,科学家今天需要开始满足数据管理需求的一个紧迫原因是因为科学正在经历数据泛滥。 在过去的二十年中,许多实验室仪器已经变得更加复杂和价格可承受,结果,越来越多的实验室正在以前所未有的速度生成数据。 Vela解释说,即使是资金最雄厚的机构,也将无法发展其IT基础架构来满足现代研究需求。 “我们正在生成大量数据,以至于我们甚至都不知道如何存储或共享……例如,到2025年,仅基因组学领域预计每年将产生多达40艾字节的数据,或大约比Twitter和YouTube的总和多出20倍。”他说。 一种 数据管理如此重要的另一个原因是实验的可重复性。 随着现代科学变得越来越复杂,正确跟踪所有实验细节至关重要。 “在科学上,单独访问文件是没有意义的。 我们还需要访问所有必要的上下文,以便能够理解,验证并潜在地复制我们正在查看的内容。” Vela说。 Vela解释说,随着制药公司开始在学术研究中寻找商业化机会,临床前研究中不可重复性的真正程度得以揭晓。 他们认为这是削减内部R&D支出的一种方法,但是不幸的是,制药公司在尝试验证来自学术机构的有希望的研究方面面临巨大的挫折。 目前,估计有50%至90%的临床前研究是不可再现的。…

数据科学与大数据与数据分析

数据无处不在。 实际上,现有的数字数据量正在快速增长,每两年翻一番,并改变着我们的生活方式。 根据IBM的数据,2012年每天产生25亿千兆字节(GB)的数据。 福布斯》(Forbes)发表的一篇文章指出,数据以前所未有的速度增长,到2020年,地球上每一个人每秒将创建约1.7 MB的新信息。 至少了解该领域的基础知识非常重要。 毕竟,这是我们未来的所在。 在本文中,我们将根据数据科学,大数据和数据分析的用途,用途,成为该领域专业人士所需的技能以及每个领域的薪资前景来区分数据科学,大数据和数据分析。 数据科学: 在处理非结构化和结构化数据时,数据科学是一个包含与数据清理,准备和分析有关的所有内容的领域。 数据科学是统计,数学,编程,解决问题,以巧妙的方式捕获数据,以不同方式看待事物的能力以及清理,准备和整理数据的活动的结合。 简而言之,它是尝试从数据中提取见解和信息时使用的技术的总括。 大数据:大数据是指无法使用现有的传统应用程序有效处理的大量数据。 大数据的处理始于未聚合的原始数据,通常是不可能将其存储在单台计算机的内存中的。 用来描述庞大的数据量(无论是非结构化还是结构化数据)的流行语每天都会淹没企业。 大数据可以用来分析洞察力,从而可以做出更好的决策和战略业务转移。 Gartner对大数据的定义是:“大数据是高容量,高速和/或多变的信息资产,需要经济高效的创新信息处理方式,以增强洞察力,决策能力,和过程自动化”。 数据分析:数据分析是检查原始数据的科学,目的是得出有关该信息的结论。…

数据以及如何对世界一无所知

汉斯·罗斯林(Hans Rosling),不太可能讲故事的人,赋予数据以灵魂和使命 杰奎琳·科赫(Jacqueline Koch)助推! 伙伴 想了解气候趋势,海洋酸化,艾滋病毒和全球疾病负担,经济或大流行吗? 几乎没有一天没有提及大数据及其所带来的希望。 即使对于那些对我们感到畏缩的人(数量,复杂的统计公式和迷宫式电子表格),也可以理解数据在揭示我们所生活的世界的奥秘方面所起的重要作用。因此,汉斯·罗斯林(Hans Rosling)的逝世是如此之大。巨大的损失。 凭借统计数据和数据,汉斯·罗斯林(Hans Rosling)描绘了更广阔的世界观。 @Gapminder基金会董事兼Karolinska Institutet全球健康教授Hans Rosling是将统计和数据转换成彩色的,在整个屏幕上无缝编排的跳舞气泡的最有名的人,他是先驱和出乎意料的讲故事大师。 Rosling在精简数字和汇总统计数据的同时,还熟练地利用了新的彩色彩色数据显示技术,从而获得了一份礼物。 然后他将其部署到一个奇妙的故事中,并以引人入胜的叙事弧来解释全球性问题,例如儿童死亡率,贫困,疫苗和收入差距。 他对“基于事实的世界观”的热爱与另类的幽默感相得益彰。 古怪的说法令人信服,他让我们所有人都对数据和统计数据,他的泡沫以及罗斯林本人深爱。…