

生命科学家,经济学家,生态学家,计算机科学家,社会科学家,语言学家,数学家,物理学家以及许多其他人已经或正在选择数据科学作为职业。 背景知识宝库提供了知识共享的机会和挑战。 但是,对于新来者来说,这种职业过渡和持续发展可能会令人不知所措,并使其中一些人感到自己不属于或缺乏能力,即冒名顶替综合症的特征。 教育者,导师,培训者和管理者在培养新人成为有能力和自信的数据科学家方面起着至关重要的作用。
数据科学基本上由以下组成:
- 学科专长
- 统计
- 统计编程
一个人可能精通这三者,但通常情况并非如此。 可能会有不同的人代表这三个组成部分,从某种意义上说,这仍然是“数据科学”。 实际上,新手想要掌握2和3知识,而通常更着重于3知识。这在主题知识和统计数据上与1和2之间存在差距。 这些是建立良好数据科学的基础,在学习和开发过程中需要进一步强调这些基础。
数据科学始于与主题专家(例如,生态学家,生物学家,经济学家)的合作或要求。 起点可能是一些现有数据,也可能是需要收集新数据来回答一些感兴趣的问题(例如,确定影响某些结果的因素)。 数据将具有一些历史和定义,数据科学家在着手进行任何编程或统计分析之前需要理解这些历史和定义。 从一开始,通常是数据科学家与主题专家之间的迭代过程,直到最终确定工作为止。 将其纳入到数据科学新手的学习和发展中是必不可少的,但绝非易事。 这一挑战是与编程语言无关的。
大多数统计编程语言(包括R语言)和数据科学都有许多学习资源。 教会新手执行不同的任务,例如,在图表上绘制数据,读入数据,创建新变量等。下一步往往是让他们探索实际数据集,而这些数据集通常仅限于没有统计和主题领域的知识支持使他们容易犯基本错误和采取不良做法。 尽早解决这些问题可能会在以后节省很多心痛。
要接受的第一点是,没有一种方法可以适用所有方法。 在大多数情况下为每个人量身定做计划是不现实和不可行的。 但是,无论采用哪种方法,都应考虑一些共同的特征。
对于寻找“合适的”数据集以激发讨论和兴趣,我最大程度地强调和拖延。 我想使用的许多现实生活数据集都受保密条款的约束或包含无法共享的敏感数据。 幸运的是,有很多R包可以使用数据集[1]。 知道哪一个是“正确的”意味着了解您的目标受众。 尽管在某些环境中可能具有全局吸引力,但在某些环境中工作良好的数据集可能无法在另一环境中工作(例如, gapminder数据)。 谨慎选择。
拥有“正确的”数据集意味着拥有目标受众感兴趣的现实生活中的问题(可能是探索性的)。 这些问题的答案应纳入决策过程或可以采取的行动。 可以咨询主题专家以寻求支持。 这回答了数据的“原因”。
在观众开始处理和分析数据之前, 必须先解释数据的“什么”,“为什么”,“何时”和“如何”。 了解数据的适当性,质量,有效性以及预处理方式后,数据科学家可以再次与主题专家合作,找到最佳的分析路径。 除非您使用的学习资源没有(适当地)引入数据集或在没有解释的情况下更改数据集,否则这似乎很直观。
通常会教会新移民如何使他们的工作具有可复制性,出于充分的理由强烈鼓励这种做法。 更大的目标应该是提出“可信赖的数据科学” [2],其中包含了可重复性。 它鼓励对所有优点和缺点完全开放和透明。 这种方法可以用来促使新来者了解他们使用的方法(模型),而不是将其视为黑匣子。 对所用方法的更好理解提高了与主题专家互动的质量和价值。
许多新手会发现数据科学的统计部分令人生畏和复杂。 如上所述,通过与数据建立联系可以缓解他们的恐惧,从而使他们走上似乎“抽象的”统计世界的道路变得顺畅。 可以通过问题和数据(即设计和变量)来开发大多数模型的关键概念和结构,然后可以将这些问题和数据最初表示为某种“数学”表示。 可以在与主题专家解释结果的背景下讨论和挑战假设。 可以通过解决将传达的内容(以及如何)来回答感兴趣的问题来结束本周期。
良好的报告做法[3,4]对于通过开放和透明建立完全可访问的文化非常重要。 这些在可重复性之上的功能通过回答“什么”和“为什么”以及“如何”来加强数据科学工作,从而使“未来的新手”更轻松地回到过去的工作。 这种方法还使将项目移交给其他人或从其他人接收正在进行的项目的过程变得更加顺畅。
如果您在使用不到五年的计算机上实践数据科学,并且该计算机具有持续的电力和互联网访问权限,那么您就不必为多数世界国家(通常称为“第三世界”)和受到紧缩政策影响的欧洲国家着想。 在这两个国家的人们中任教并与他人合作之后,我对他们的日常挑战有了更多的了解。
计算机通常是已连接10年以上的CRT显示器的台式机。 在受紧缩影响的欧洲国家中,公共部门面临预算削减,这迫使IT需求在优先事项清单中的位置非常低。 对于大多数人来说,他们的首要任务是即使减少薪资和福利也要保持工作。
令我感到惊讶的是,如此多的计算机继续在多数世界国家/地区运行,这些国家的电力不是恒定的,并且会在没有通知的情况下丢失(例如那些硬盘)。 显然,没有电就没有互联网,即使有电也不是恒定的。 用户可以具有使用限制,该使用限制是时间和/或下载限制的函数。 在许多情况下,免费访问网站和在线社区是一种奢侈。 通过提供文档,文件以及访问音频格式或质量较低的视频,可以访问在线视频培训材料。 例如,可访问性的一种简单衡量方法是,在视频中准确地引用您所谈论的内容(例如,“在幻灯片7上……”,“在图表的右上角……”),以帮助翻录音频的用户或较低质量的视频。
如果您想使您的教育资料真正覆盖全球,那么请考虑可以采取哪些措施来减少必须下载的内容的大小,以及代码如何在互联网访问受限的“功能较弱”的计算机上运行。 除了使代码可读( R tidyverse )外,您还面临使代码可访问的额外挑战,这是学习新的R技巧的好方法。 面对这些挑战时,我在开发或改编课程时会使用较旧的低规格笔记本电脑进行测试。
在这篇文章中,我分享了有关如何加强数据科学教育的一些想法。 我讨论了将现实生活中的数据科学实践整合到学习和开发活动中的过程,特别是通过聘请主题专家和更好地整合统计方法。 如果您想获得真正的全球影响力,则可以将对多数世界和受到紧缩政策影响的国家/地区的访问权限整合到您的产品中。 这样,您还将得到发展。
- 有关R中可用的一些数据集的列表,请参见:http://ilustat.com/shared/what_data_r/(源代码位于https://github.com/saghirb/WhatData)
- 我讲了一些有关可信赖数据科学的演讲幻灯片:https://speakerdeck.com/saghirb/when-to-trust-and-when-not-to-trust-data-science
- 报告健康研究的各种指南:https://www.equator-network.org/
- 有关统计报告的指导文件:https://www.efsa.europa.eu/en/efsajournal/pub/3908