数据科学与软件开发的凝聚力小小书 XXshu

大多数组织专注于基于产品的业务，将大多数数据科学计划定向到改进其产品上。这种组织中的数据科学家必须与软件开发人员并肩工作。众所周知，它们之间的强大凝聚力是这些组织成功的关键因素。

有效编织

尽管数据科学家和开发人员在技能上有一些重叠，但对于数据科学家来说仍然存在一些技能盲点 。通过提高这些技能，不仅可以提高数据科学的生产率，而且还可以帮助提高团队绩效并增强团队之间的凝聚力。

开发团队中的数据科学

与数据科学相比，软件工程是核心且相对完善的部门。开发团队在更加标准化的环境中工作，这些环境在组织之间也或多或少相似。他们会说并理解常见的词典来交流他们的问题和解决方案。与通常在程序设计和数学方面都优秀的这些人作为数据科学家一起工作可能会带来机遇和挑战。对于数据科学家而言，它有助于共享概念和想法以进行审查和反馈，但也带来了一些挑战，下面将对此进行讨论。

三大挑战

问题的性质

数据科学家和软件开发人员通常会解决不同类型的问题。例如，软件开发人员经常面临具有明确要求和目标的确定性问题。他们使用团队中共享的多个代码存储库进行协作开发和多个数据存储系统。相比之下，数据科学问题主要是面向研究的分析任务，而在一开始的要求并不总是很明确。数据科学家专注于提取可行的见解，并使用描述性，预测性，推论性，因果关系和机制分析来研究数据。这些任务本质上是实验性的，从假设开始，并收集证据以接受或拒绝这些假设。

数据可用性和可访问性

数据通常以跟踪的形式或由软件产品生成。因此，开发人员在数据到达时就与它进行了首次交互，并且他们的工具箱最容易访问它。数据格式从传统的关系形式到非传统的，灵活的形式，没有任何预定义的结构，例如JSON，HTML，XML文件甚至二进制格式。数据可用性和可访问性对数据科学家而言可能是一个挑战，尤其是当没有完善的流程来使数据与开发人员工具脱钩并使其对所有人可用时。新手数据科学家期望数据采用关系形式，但事实并非如此。转换和清除可用于分析的数据对于数据科学家而言可能是大量的工作。

知识孤岛

生产系统生成的数据通常不会针对临时分析进行优化。软件开发人员专注于软件需求，设计，实现，测试和维护。他们也执行分析，但主要参与描述性分析，而对预测或因果分析和优化知之甚少。由于存在这种差距，开发人员有时难以确定要以最优化的方式收集哪些数据以进行临时数据分析。另一方面，数据科学家更多地参与预测性，推论性，因果分析的任务。数据科学家对开发人员收集和转储数据所面临的技术障碍的了解相对较少。在最坏的情况下，这些知识孤岛会创建多个甚至平行的真理来源，从而引发数据信任问题。

凝聚策略

强大的业务敏锐度

毋庸置疑，业务敏锐度是任何数据科学项目成功的最重要前提。数据科学与开发团队之间对业务的不同理解是提高生产力的最大风险。决策者，数据科学团队和开发团队在业务路线图上保持同步至关重要。这将帮助他们提高业务背景意识，从而更好地进行团队协调和沟通。

说服力的沟通技巧

使用易于理解的比喻和隐喻表达抽象概念可以使反馈循环更加有效。具有说服力的沟通技巧，结合有力的逻辑证据和生动的故事讲述，是团队凝聚力的必备要素。可以采用多种策略来发展和提高这种技能。关于挑战和策略以及组合任务计划（例如团队之间的冲刺计划）的公开讨论非常有效。

了解数据基础结构

不仅要了解数据的结构，还要了解底层的数据基础结构和源是最被低估的方面。它有助于使两个团队在数据源方面保持同步，并提高数据信任度和可靠性。在许多组织中，常见的报告系统通常都有单独的数据源，这不仅涉及冗余，而且还涉及数据信任问题。开发人员和客户成功经理发现的仪表板和数据管理平台可用来监视KPI，以提供数据的同步视图，从而改善协调性和凝聚力。

了解产品架构

在基于产品的公司中，数据是围绕产品的上下文生成的。数据科学还致力于改善和增强数据驱动产品。了解高级产品架构可为同步数据科学与开发团队提供巨大帮助。它使他们的词汇和概念保持一致，最终有助于更好地理解通用产品和数据上下文。

要避免的陷阱

避免黑盒方法

任何数据科学部门的成功都取决于与多个利益相关者进行沟通和协作的质量。大型组织，其中数据科学团队的结构更加集中，这是知识孤岛的更常见的温床，而数据科学被视为黑匣子。数据科学团队通常以最少的团队合作和同行评审的方式向一个人报告，最终会降低创造力并增加团队对解决方案的偏见。

避免工具冗余

不要为数据科学创建不必要和多余的工具。如果可能的话，请尝试使用现有的工具和技术，因为冗余会增加各种成本，包括设置和维护成本，以及可能导致数据差异以及造成数据信任问题的多种事实来源。

避免目标不明确

提出正确的问题或解决正确的问题决定了数据科学计划是否会成功。处理错误问题的主要原因是缺乏积极的沟通或业务敏锐性。避免执行不清楚的数据科学任务以及具有模糊最终目标的过早任务，有助于在正确的时间专注于正确的任务。数据科学项目也会因数据错误或没有可用的时间格式而失败。