通过3个P领导您自己的数据科学项目小小书 XXshu

关于学习数据科学技术方面的文献很多：统计，机器学习，数据处理，大数据。在开始或带头工作时，该材料将为您提供良好的服务。但是，当您准备展开自己的翅膀并亲自领导一个项目或独立进行一个项目时，该怎么办呢？在这里，您需要一种不同的讲故事的方式-可以传达您从事项目工作的原因，价值所在以及已完成工作的类型。没有这些技能，您将冒着漫无目的地寻找解决方案的风险，而无需为此付出太多努力。您最后想要做的就是当有人问您工作的商业价值时，成为大鹿。将大数据的3个V与模型开发的3个P配对，以提高项目的成功率。继续阅读以了解如何在任何数据科学项目中详细说明问题，过程和进度。

问题

在现实世界中，问题通常没有得到很好的定义。由医生来定义问题。将此与许多教室设置和入门级职位进行比较，详细介绍工作的每一个细节。这等效于按数字着色的涂色本。您将得到问题和方法。您的工作严格执行。这对于学习主题可能是一种有效的方法，但对于解决问题更开放的实际问题却并非如此。

在您的绘画生涯中的某个时候，您将从详细的说明中毕业，然后转向没有数字的着色书。问题仍然存在，但现在您选择方法。因此，您必须决定使用哪种颜色。更重要的是，“成功”绘图现在取决于您是否选择良好的颜色组合。

最后，您完全不给填色书了。现在会发生什么？您会得到一张白纸，而不是线条图。由您来确定问题。在这里，您拥有最大的自由度，但也有最大的失败风险。

从数字颜色到一张空白纸的发展与（数据）科学家的成熟并没有太大不同。首先，您要学习技巧。然后，您将学习如何将技术应用于给您的问题。最后，定义问题。随着您职业的发展，您的成功将取决于将空白纸转变成有价值的东西，即从数据中识别机会。因此，您的第一个挑战是定义问题。

有很多方法可以问这个问题。同样有效的是：

您要解决什么问题？
这个项目的目的是什么？
你的目标是什么？

答案需要具体。很多时候，它们听起来像是一个用例或用户故事，形式为“我想做X因为Y”。这也将帮助您确定谁是该项目的受益人。如果您不知道自己在解决什么，也不知道谁将从中受益，那么您的项目肯定会失败，因为您的项目无法与娱乐区分开。

在研究问题定义时，您可能会发现有很多人从中受益，每个人都有可以通过相同模型或分析解决的稍有不同的问题。在这种情况下，有必要对问题进行优先排序，并专注于最重要的问题。在开发模型时，这一点尤其重要。当问题混在一起时，您会发现很难找到解决方案。因此，这是一种简化形式。

你们中的有些人可能会抗议优先级不是您职责的一部分。可能是正确的，但是随着您事业的发展，您不仅要领导计划，而且要推动新的计划。这意味着知道如何确定优先级。

处理

一旦知道要绘制的内容及其用途，您将如何创建图纸？这是您的过程或方法。在数据科学中，它通常遵循科学方法。这意味着您需要一个假设和检验该假设的方法。您的模型可能会基于许多这样的假设。

就像表演一样，有很多方法，没有任何一种方法能胜过其他方法。也就是说，您的流程至少需要包含以下元素：

数据-您从哪里得到的数据，数据的完整性如何，存在哪些偏见？
理论-您对模型的概括性论述是什么，即模型利用什么关系进行推论？
评估-您如何知道您的模型是否有效？

预先记录您的过程将澄清您的想法，并使协作者更容易理解和审查您的方法。

进展

随着过程的进行，剩下要做的就是“实际工作”！当您精通数据时，如何知道取得了多少进展？在我们的着色示例中，如果图片的3/4被着色，则剩下1/4。简单。困惑说明了另一个例子。在这里，出色的工作不仅仅是完成工作的功能。这是因为拼图具有容易的位置，而具有硬的位置。取决于您是早晚还是后继疼痛，可以确定还剩下多少工作。

模型也是如此。不仅如此，模型还有迷宫般的死胡同。对于模型，何时达到死胡同并不总是很清楚。因此，要传达自己已取得的进展和剩下的工作量是一项艰巨的任务。这是声音过程发挥作用的地方。详细说明您的假设和验证标准，可以轻松知道何时陷入困境。它还提供有关是否存在替代路径以及剩下的工作的指南。

结论

尽管数据科学是一项团队运动，但对于从业者来说，独立完成任务和项目很重要。这不仅对您的职业有利，而且对您的业务和技术团队中的合作者也有利。使用上述3Ps方法将帮助您明确思考并改善与他人的沟通。掌握这项技术甚至可以减少遇到的死胡同，从而加快完成过程。

有自己的流程吗？在评论中分享您有效领导数据科学项目的方法或技巧。

Brian Lee Yung Rowe是 Pez.AI的 创始人， Pez.AI 是一种对话式AI机器人，破坏了金融和保险行业。 Brian还是CUNY的兼职教授，教授数学和机器学习。 在 cartesianfaith.com上 阅读原始帖子 。