数据科学角色小小书 XXshu

在Google Cloud培训中，我和我的团队花费了大量的时间思考正在使用Google Cloud的不同类型的数据科学团队，以便我们能够最佳地定制我们的数据和ML课程以及实验室。我们面临的核心挑战之一是不同类型的用户如何与我们的GCP大数据和AI产品互动。

GCP用户对这些工具的应用范围从使用ML预测加利福尼亚州的野火到使用TensorFlow预测健康的黄瓜并对其进行分类都有所不同。了解我们的学习者及其应用有助于我们建立更好的培训。我的同事Cassie和Lak讨论了组成数据科学团队的人员类型，以及这如何根据您的团队规模而变化。在本文中，我想集中讨论我们如何通过讨论学习者的角色来围绕培训的不同类型的学习者进行思考。

良好学习角色的特性

角色是从用户界面设计中借用的技术术语，是指潜在用户的虚构表示。因此，学习角色是指潜在学习者的表示。

基于先前的研究和经验，角色是一种识别和调整用户体验的方法。角色可以使设计师讲述有关特定类型用户的故事；作为人类，我们更喜欢叙述而非人口统计的数字表示。说“ Sherrie更喜欢这样的界面”更容易说，而不是“我们的用户中有32％是受过大学教育的女性。”

在学习的情况下，用户体验转化为学习目标。学习角色使我们能够讲述有关特定类型学习者的故事，开发有关他们的需求和挑战的心理模型，并给予同情和认同。

我们根据不同的因素开发几种不同的角色，包括：

学习者的背景和背景
胜任力
目标/需求
挑战性

背景和背景：数据科学家被嵌入业务环境中，这将影响他们学习成功所需的知识。正如Lak所强调的那样，组织的规模是数据组织之间的主要区别特征。与较小的组织相比，在较小的组织中，数据科学家必须承担更多的责任。在较大的组织中，数据科学家可能有更大的自由来专门研究和深入研究特定主题，并且可能正在寻求深入和专门的培训。行业是重要的背景，也是数据科学家组织当前运行的当前基础结构和流程。此外，学习者每天都会在工作中带来一系列个人和专业的历史。

能力：学习者来自许多不同的背景，他们的技能是从先前的正规培训和在职经验中获得的。通常，我们的学习者会具备先前的工具（Python，R，scikit-learn）和过程（软件工程，数据管道的创建，培训基本ML模型）的经验。但是他们的能力也取决于他们在职业生涯中的位置以及他们的团队。还有“未知的未知数”：学习者应该知道但不知道的东西。

目标和需求：学习者有一组自己想学习的目标或科目。这些学习者可能是出于内在动机（我对神经网络真的很感兴趣！），也可能出于外在动机（我的经理希望我了解机器学习管道），并且他们可能是职业或解决方案导向的。我们的学习者主要面向解决方案。他们想知道如何在GCP上完成工作。

挑战：学习者通常会遇到一系列不确定的障碍，不确定性或主题。在数据科学领域，这些不确定性可能会更加严峻，因为主题是如此新，并且还在不断变化。在采用新技术时，他们可能会遇到从“我可以在公共云上执行此特定任务吗？”到“我从哪里开始甚至开始学习此问题？”的问题。

考虑到这些不同因素，让我们汇总一些实际的学习者角色。

学习者角色

数据分析师Vinod

Vinod是位于伦敦的一家中型服装公司的数据分析师。他今年32岁，拥有公共管理硕士学位。在该公司工作之前，他曾在一家大型金融公司担任过5年的业务分析师。

能力：Vinod精通SQL，并且是电子表格的高级用户。他对大型数据集比较满意，并且可以使用最常见的SQL结构快速进行分析。他不太熟悉诸如分区和窗口之类的概念，但渴望学习。

目标：Vinod希望能够在GCP上执行当前的分析师工作量。他想了解如何优化当前需要花费数小时或更长时间才能在几分钟内运行的查询。他还想了解与商业智能平台（例如Looker或Tableau）的集成，以便能够将这些结果更有效地传达给团队中的经理和其他利益相关者。

挑战：Vinod经常遇到将所有必要数据转换为正确格式的问题。在一家大公司工作意味着他经常试图从多个不同的数据源中获取正确的信息来进行分析，这意味着他可能会手动将某些东西混在一起，但是他需要一位数据工程师来建立生产级别数据管道。他还希望大规模运行其工作负载，但又不想依靠Python或R编程来执行此工作。

数据工程师Sasha

Sasha是一家小型初创公司的数据工程师，该公司在德克萨斯州奥斯汀开发个性化的衣柜建议。他们今年27岁，在初创公司工作之前，曾是一家区域医疗保健合作社的开发商。

能力：Sasha擅长为公司系统的多种类型的用户设计数据管道和构建可伸缩的基础结构。作为一个较小的团队的一部分，他们了解大量下游利益相关者的需求，包括数据分析师，数据科学家和ML工程师。因此，他们擅长设计用于数据采集和导入，集成新数据源以及提取/转换/加载操作的系统。

目标：Sasha希望将其启动时的当前工作负载从AWS迁移到GCP。他们听说了有关GCP上可用的机器学习和AI工具的很多好消息，并期待学习一些有助于部署这些工具的最佳实践。

挑战：Sasha担心必须同时担任其当前公司的基础架构设计师和数据工程师。尽管他们有优势，因为他们在一家云原生公司工作，并且已经建立了许多当前的基础架构，但由于不得不将其转换为新的云而使他们有些不知所措。

数据科学家Jin

Jin是纽约一家中型且成长迅速的金融服务公司的数据科学家。她今年35岁，拥有认知神经科学博士学位。在公司工作之前，她在纽约大学（New York University）做了博士后，并参加了一个为即将离开学术界的学者设计的数据科学训练营。 Jin的团队是公司中最早的团队之一，并且是过去一年中最近雇用的10名员工中的最新一支。

胜任力：来自学术界，使金在统计推断和抽样理论方面具有良好的背景。尽管她是这些语言的新手，但通过训练营的工作使Jin掌握了许多Python和R技能。她擅长于探索性数据分析，数据清理以及在scikit-learn和xgboost中开发基本的机器学习模型。

目标：Jin希望学习如何在TensorFlow和Keras中开发模型，如何在GCP上进行训练，以及如何在云上进行部署。她背后有一支强大的团队，能够为她提供所需的数据，并且她希望了解软件包以开发模型。

挑战：TensorFlow图执行模型和分布式学习通常会对Jin产生一定程度的威胁。她有点担心自己既充当模型开发人员又充当模型部署人员的能力，并希望模型能够适当扩展。

设计数据科学课程

如果Vinod，Sasha和Jin都在一个组织内，那么他们都将被视为一个更大的数据科学团队的一部分。他们都来自独特的背景，并通过正规教育或在职经验学习了不同的能力。他们的目标相似但又截然不同：Vinod希望构建要与管理层沟通的商业智能报告，Sasha希望轻松地将数据导入并提供给需要的人，Jin希望学习TensorFlow并大规模生产其模型。

请注意，这些角色并不是要穷尽数据科学团队中存在的角色类型（例如，此处未讨论AI / ML工程师或解决方案架构师），但我们发现了这些角色。寻找培训的人最多。

您在Vinod，Sasha或Jin中看到自己吗？如果您准备扩展自己对这些角色的了解，那么Google Cloud的数据和机器学习按需课程是一个不错的起点。