数据分析和可视化-个人旅程

地图,可视化示例。 图片信用

随着时间的流逝,我们已经看到了几种商务智能工具的出现,其中一些有望将我们的分析提高到一个新的水平,而另一些则可以帮助我们开发出令人惊叹的故事的令人惊叹的可视化。 在庞大的数据集背后发现这样的故事是我在当地一家致力于消除儿童饥饿的非营利组织的日常工作。 我认为在评估现代商务智能工具时,我会与您分享我的旅程和比较标准。 请记住,此分析是完全主观的,并且基于我以前的经验。 在我们深入探讨之前,让我为您提供一些有关我的背景的背景知识,以及不久前我是如何完成评估几种此类工具的任务的。

  • 我在数据分析和可视化领域的经验
  • 我在现代商业智能工具中寻找什么
  • I.清洁和数据组织
  • 二。 成本
  • 三, 市场细分,产品评论和在线状态
  • IV。 0至60
  • V.交互性,API和责任制
  • VI。 开源与专有,发布周期,支持和社区
  • 七。 数据收集和数据弹性
  • 八。 数据存储和数据整理
  • 九。 数据分析,充实和联接
  • 十。数据可视化讲故事
  • 十一。 资料共享
  • 十二。 安全与数据治理
  • 结论与调查

在教育方面,我拥有计算机工程和电信学士学位以及电气工程硕士学位。 在2012年毕业之前,我最喜欢的,很棒的商业智能工具是Matlab。 对于其中许多不了解Matlab的人,可以将其视为科学的工作台。

图片信用

Matlab要求您学习其语法,但是我非常喜欢“开箱即用”的事实,您可以:

  1. 导入自己的数据。
  2. 对它进行分析
  3. 可视化您的发现并与世界分享 ,或者在大多数情况下与您的同事或班级教授分享
图片信用

如果您认为这听起来不错,那就会更好。 该工具使您可以与他人共享您的工作或将他们的工作导入您的环境中,并可以访问数以百计的软件包和教程,从数学和物理到控制系统和生物学。 至少在STEM领域,它仍然是学术界最受欢迎的工具,这并非巧合。

图片信用

在一家领先的卫星通信公司担任系统工程师的第一份工作中,我很快就看到了使用此工具的好处,该工具可以使我们:

  1. 从使一切神奇的事情发生的许多组件中收集与性能相关的数据,并允许来自世界各地的用户访问任何其他人或Internet。
  2. 根据我们自己的性能基准分析此类数据。
  3. 识别异常值或模式,尤其是当多个用户同时使用系统时。
  4. 如果可能的话,实时提醒我们这种模式。
  5. 为我们生成每日和每周的报告,以便我们可以随着时间的推移以最佳方式分配资源,并根据长期资源为我们预测我们的需求。
图片信用

尽管我真的很喜欢Matlab,但显然这不是完成这项工作的正确工具。 话虽如此,我们公司(而不仅仅是我自己)一直在开发自己的工具,该工具将尽可能多地完成此列表中的项目,在其他情况下,则购买了可以完成工作的生产级工具。 不用说,内部解决方案和购买的解决方案都需要互相交谈,并能够在需要时交换信息。

我和我的团队还主要使用Python和Java编写了此类工具,并利用了开源技术和库,例如Django,Pandas,Scikit,MongoDB,Fusioncharts,Hicharts,D3等。 我还设计并开发了一项功能,该功能将询问人类友好问题的便捷性与以各种格式(例如图形,时间线,仪表板或交互式查询)立即获得答案相结合。 为了使这些工具更易于用户使用,我开发了一种流行度或社区脉动功能,所有用户都可以看到最近最近最受欢迎的主题,问题或搜索,并且只需单击一下按钮就可以提出相同的问题。 最后,我也开始探索机器学习 。 我正在努力将预测集成到我们的自定义解决方案之一中,并致力于使用自然语言处理从基础数据生成每周文章,比自动讲故事更近了一步。 经过几个月的努力,我们有了自己的自定义商业智能工具,该工具可以满足我们最初目标的99%的标准和任务。 对于所需的每个新功能,我们只需要自己开发,测试和部署即可。 请注意,这是在现代商业智能工具流行或负担得起之前,因此我们实际上没有其他选择。 即使存在的应用程序(例如Tableau)也不能满足我们超过30%到40%的需求。

图片信用

在我之前任职公司的美好旅程结束时, SplunkHadoop及其围绕大数据, AWSTableau人工智能IBM Watson以及这个名为Elasticsearch的新平台的丰富生态系统的新参与者出现了。 在Coursera,Udemy和Udacity的帮助下,在许多这样的平台上进行了自我教育,并参加了该地区的几次聚会,我开始探索此类工具和平台必须提供的功能。 我想探索他们信守的,未兑现的承诺以及背后的团队,他们对产品的愿景以及周围的社区 。 希望本文的下一部分将阐明我在现代商业智能工具中的期望以及在构建自己的自定义工具时的构想。

早在2016年《福布斯》上发表的一篇研究文章发现,数据科学家花费的时间中有80%实际上花费在收集清理组织数据集上。 这几乎相当于在一个项目上工作五天,只是有机会在周末进行分析并得出结论。 我不确定您的身份,但这似乎要花很多时间。

图片信用

在评估现代商业智能工具时,这是我考虑的十二个最重要的标准。 标准2到6围绕最终产品的质量运行 ,而标准1和7到12则侧重于工具的技术方面。

I.清洁和数据组织

理想的工具应该能够识别 格式 明确结构化数据集。 逗号分隔值(csv)格式或Web访问日志就是很好的例子。 如果基础数据是半结构化并遵循其自己的格式 ,那么解析和仅提取相关字段的选项是现代工具的必备功能。 最后,对于原始的非结构化数据或非机器友好格式的数据(例如pdf文件,表中大量嵌套的标题和行,或者原始数字和文本),当前的工具无法执行。 在这种情况下,我发现使用机器学习发现模式和基础数据类型有很大的兴趣,但是根据我的经验,到目前为止,这主要是一个正在进行的工作或一个研究主题。

这里的重要因素是数据质量

Web和链接数据发起者的发明者Tim Berners-Lee提出了一种针对开放数据的五星级部署方案,该方案基于格式和结构,根据不同数据集的可访问性和可读性为其评分。

数据源作者从一颗星星发展到了五颗星星,不仅提供原始数据,而且还提供结构,非专有的开放格式和可共享的上下文。 在许多情况下,这种数据质量可以影响或破坏现代商业智能工具中的数据分析。

图片信用

二。 成本

就像生活中的一切一样,所有这些出色的功能和辛苦的工作都是有代价的。 进行预算分析并考虑两个主要方向很重要:

  1. 该工具的成本考虑到它提供的所有功能以及可以长时间使用的用户数量。 许多工具为每个用户或每个安装提供许可证的预付费用,而其他工具则为每个用户每月提供订阅模型。 现在最好考虑可伸缩性,并尝试预测如果您的组织从10%的采用率提高到50%或更高,再到100%的采用率,此数字将如何变化。
  2. 拥有数据孤岛以及无法将组织的所有数据源集成在一个通用平台上的成本,这将使您可以查看隐藏在数据背后的全局图。 不幸的是,在当今世界,这并不少见,每种数据管理解决方案都有自己的语言或格式,并且无法彼此“交谈”。
图片信用

三, 市场细分,产品评论和在线状态

我们在线上做出的几乎每一个决定都是如此。 这就是为什么我认为营销领域将永远是受欢迎的领域。 对于现代平台而言,拥有大量真实的案例,积极的评论和成功的故事是必不可少的。 我尽我最大的努力为自己说话,所以我不必多说。 这就是为什么非常希望对工具的功能产生即时的惊喜或印象。

图片信用

尝试弄清楚正在评估的每个平台在哪里适合 大局也很重要。 它更适合个人使用吗? 它可以处理大量或大量数据吗? 那么各种各样的数据呢? 生成数据的速度或速度如何? 它可以帮助您相对于其他来验证任何传入的数据集或减少数据中的任何噪音或偏差(数据的准确性 )吗? 最后,这个平台的生产是否已经准备就绪,是否经过了现代初创公司或大型公司的验证和使用? 它是否允许您设置自己的数据工程和业务流程环境,并允许您根据特定的用例和方案进行任何性能调整

我想这件事的另一面是, 和您的组织真的知道您需要什么,因此真正寻找了什么?

图片信用

IV。 0至60

从零到六十的字面意思是,您可以轻松快速地将数据集保存在计算机中或联机的某个地方, 导入到Business Intelligence工具中,对其进行分析并从中创建一个简单的可视化文件 。 例如,以Microsoft Excel为例,对于一个人来说,只需打开CSV文件,创建数据透视表并单击几下即可显示您的发现有多容易。 就个人而言,我已经看到了一些本主题的专家工具,而其他工具则采取了一些额外的步骤才能到达终点。 如果您的日常活动是围绕简单的任务进行的,而这些时间几乎没有开发时间,或者根本没有开发时间,那么显然您需要将注意力转移到这个方向。 通过提供一些探索其主要功能的试用期的工具,您应该能够基本了解它们在此标准中的得分。

图片信用

V.交互性,API和责任制

随着时间的流逝,随着现代商务智能工具的发展,我注意到了朝着用户交互性和用户参与性发展的趋势 。 作为此类产品的日常用户,您可能更喜欢一种可以轻松与之交互,使简单任务保持简单甚至定制其部分以更好地适合您的数据探索偏好的产品。 如果现代工具确实为您完成了一些琐碎的任务 ,或者至少建议您进行初始分析或数据整理,那么您就不必再从头开始研究每个新的数据集,这将是理想的。 就我个人而言,我遇到过各种工具,这些工具实际上允许您以一种简单的语言提出自己的问题 ,并让其确定执行正确分析的基本任务并将结果呈现给用户。 我还遇到过基于众所周知或格式良好的数据集的工具,它们可以为您执行初始分析并自动创建实时,交互式, 仪表板 ,而您的参与几乎为零。

与用户交互类似,今天另一个重要的标准是“ 作为第一公民的API ”的概念,或者现代工具能够在应用程序编程接口后面“说”现代的机器友好语言。 将其视为现代工具的字母 ,没有这种功能,它就无法与那里的任何其他工具或数据源进行通信或交换信息。 如果您本机地支持它,那么只要始终牢记安全性,就可以探索一个全新的世界。

最后,一个经常被忽视的标准是现代工具能够自我监视并在数据收集过程,数据分析过程和数据表示过程中随时间向用户报告其性能。 稍后将详细介绍所有这些过程。 可以将其视为计算机或智能手机中的任务管理器或活动监视器的类似物。 就引擎盖下的实际情况而言,此功能提供了一个问责性功能。 简单的任务是否需要太多资源来完成,或者工具可以按照购买时提到的规格运行? 在云环境中运行许多工具时,这可能并不重要,但是作为一个明智的购买者,您应该知道您真正支付了多少钱,以及将来需要多少资源 。 它还在另一方面帮助您的数据工程团队: 可伸缩性 。 查看工具对1个用户,10个数据集和30个可视化的性能,您可以粗略估计内部或云中多个用户,数据集和可视化的资源需求。

图片信用

VI。 开源与专有,发布周期,支持和社区

与现代商业智能工具的质量有关的最后一个标准与它背后的实际开发人员支持团队, 销售团队以及对我而言最重要的是产品背后的社区有关

就个人而言,如果您问自己一个简单的问题,我真的会有所作为:将数据分析投资放在社区产品背后还是产品背后,您觉得最舒服吗?

这正是开源工具与专有工具的区别所在。 在大多数情况下,活跃的开源产品背后有成百上千的开发人员,它们会不断地开发新功能 ,解决现有问题 ,发布新版本等。 它的优点在于您也可以成为这个丰富的生态系统的一部分。 借助论坛和GitHub(一种用于软件版本控制的基于Web的现代托管服务),您可以:

  1. 参加有关任何相关主题的在线讨论。
  2. 打开问题单,并与社区的其他成员分享在所使用工具的主要版本或次要版本中发现的问题或错误。
  3. 请求数据工程管道或实施中当前缺少的新功能或增强功能。
  4. 分叉或复制现有的主发行版,并开发您自己的工具或功能(当前不可用或特定于您的实现)的版本。

开源产品通常在其背后具有多种声音和观点。 您可以成为其中的一员,以塑造产品的外观和感觉,以便将来发布。 它在成千上万的开发人员的活跃活跃社区与满足给定规范的特定产品之间产生了区别。

对我来说重要的另一个方面是工具背后的公司多久组织一次会议 ,向社区通报其即将发布的功能,邀请各行各业的用户在数据工程管道中分享其最佳实践和工具应用等等。 。 如果该工具至少每年一次或理想情况下每6个月一次进行大量开发和发布,也将产生很大的不同。 这样,可以及时解决社区要求的热门功能和重要的错误修复。

最后,及早了解技术支持销售团队的支持水平以及产品的灵活性对于成功至关重要。 理想情况下,一个出色的技术支持团队不会过度承诺任何实现细节,并且在您最需要的时候就在那儿;还有一个灵活的销售团队,它不仅试图销售他们的下一个产品,而且实际上对您使用该工具的用例,是我要注意的重要标准。

图片信用

七。 数据收集和数据弹性

本文的这一部分(包括第一个标准)更加侧重于每个商业智能工具的技术方面。 对于此标准,我正在寻找一种具有丰富输入数据连接器的工具 。 现代工具为csv,text,xml,excel,pdf,json或geojson格式的平面文件提供支持。 它们还提供对类似SQL的数据源(如Salesforce或Oracle)以及No-SQL数据库(如MongoDB或Redis)的支持。 理想情况下,您还需要支持AWS产品,例如数据源, 社交媒体电子邮件平台, 销售点系统和物联网设备。 在大数据平台部署开始时,似乎没有必要,但是随着时间的流逝,您很可能会发现需要它。

此外,现代工具还应支持与Data.gov或世界银行等公共数据源的连接,或者甚至与政府,全球问题,学术文章,社交媒体,市场营销,科学,新闻,媒体等更多公共可用资源的连接。 一些工具依赖于这些数据源提供的底层API,而另一些工具则具有特殊的连接器,这些连接器向用户隐藏了所有连接细节,并从公共数据源Y中抽象了访问度量X的概念。

最后,当数据流过数据收集管道时 ,平台可能会遇到阻止其将新数据或事件传递到预期输出的情况。 数据弹性可确保针对此类情况制定适当的策略,该策略至少会在出现意外的数据类型或您正在侦听的进程异常终止时通知您。 理想的功能将是记录此类意外事件或新数据以进行进一步处理,或采用尽力而为的方法,其中在第二次数据提取过程启动之前应用了一些基本转换。 同样,由于流数据的本机突发特性,现代工具应该能够与诸如Apache Kafka之类的排队平台集成。 这样,数据流量的任何瞬时增加都不会丢失,而是会被缓冲以进行进一步处理。

图片信用

八。 数据存储和数据整理

对每种工具使用的基础存储引擎进行研究非常重要,因此,此类平台将哪些数据类型格式视为一流公民。 例如, 列式存储引擎往往更适合提前了解数据结构并且需要最少的设置和维护的需求。 将来添加新的数据类型是可行的,但这是一个昂贵的过程。 另一方面, 面向文档的存储引擎可以允许任何数据结构,也可以从即将到来的流量中添加或删除新字段。 现代商业智能工具可能会隐藏所有这些技术细节,但是有经验的数据工程师应该能够研究这些细节或至少估计所使用的基础存储引擎。

现代工具提供的另一个功能是能够根据您的最佳知识来调整基础数据格式 。 它们使您可以转换数据类型,提取子字段,基于本地或外部查找转换字段,更改字段,删除字段或记录,以流行格式反序列化数据等等。 没有哪个平台比实际用户更了解数据 ,因此这是一个非常理想的功能。

最后,从我的个人经验来看,值得强调的是在任何基础数据集中,可用但难以处理的数据与容易找到的数据的概念。 例如,您的组织可能拥有非常大的数据集集合,但是如果您无法查看样本文档或满足给定条件的文档集合,则数据存储的行为更像是数据归档 。 在当今数据爆炸的世界中, 搜索是一项重要功能,随着时间的流逝,搜索可能会成为最重要的功能之一。 能够创建“ ”和“ ”数据管道在生产环境中至关重要,在生产环境中,根据大量临时数据集做出数据驱动的决策。 两种不同存储技术或格式的组合通常能够支持此类管道体系结构。

图片信用

九。 数据分析,充实和联接

重要的是要理解,所有先前的步骤和功能都旨在推动这一核心步骤,对数据的实际分析和探索,查找模式,查看不同字段之间的相关性或建立可描述数据中潜在现象的模型。一定程度的准确性。 根据我的经验,现代的商务智能工具可以帮助用户从数据信息 ,从看似非结构化或嘈杂的数据到结构化数据,甚至从问题答案 。 工具还应旨在提高效率,并识别在数据处理期间可在基础数据中利用的任何固有并行性

考虑到每个数据分析过程都遵循以下模式:问题->数据处理->探索->结论->交流,重要的是要意识到前三到四个步骤将经历一个连续的循环,直到达到令人满意的结论水平。 实际上,这意味着在数据分析步骤中,用户很可能将不得不用其他数据集充实基础数据,或者还必须将它们与公用密钥上的现有或新数据集结合起来。 持续搜索新数据集并与现有数据集集成的需求是进行深入分析的关键。

最后,一些商业智能工具提供了执行时间分析,基于位置的分析,基于关键字的分析,基于图形或连接的分析, 统计分析, 机器学习分析等功能。 了解每种方法和功能所提供的机会和局限性很重要。

图片信用

十。数据可视化和讲故事

如果说数据分析的前一步是蛋糕,那肯定是一个漫长过程的基础。 几种商业智能工具允许用户从一组给定的预定义可视化中选择一个可视化,例如:

  1. 折线图,面积图或条形图
  2. 饼状图
  3. 数据表,指标,目标和量表
  4. 热图
  5. 坐标图和区域图
  6. 时间序列
  7. 散点图
  8. 树图
  9. 词云
  10. 自定义可视化库

作为数据科学家,知道何时应用哪种类型的可视化可以在发现和讲述基础故事与完全跳过故事之间有所区别。 正如专家提到的那样,数据叙事是一种用于传达数据见解的结构化方法,它涉及三个关键要素的组合: 数据视觉效果叙述 。 将数据与叙述结合起来可以向您的用户解释底层数据集中实际发生的情况 。 当视觉和数据结合在一起时,就会出现模式和异常值 ,否则这些模式和异常值将丢失在大型数据表中。 同样,将叙事与视觉结合起来可以吸引用户进行进一步调查或与更多听众分享发现。 最后,当数据,可视化和叙述的所有元素组合在一起时 ,您就创建了一个故事,可以推动决策并影响环境的变化。

就个人而言,我已经看到自上而下的方法可以成为讲故事的有效机制。 您要记住听众的现有知识,他们对所涵盖主题的好奇心和参与度以及听众可以使用的信息的深度和广度。 然后,您将始终基于汇总的数据,叙述和可视化内容从尽可能高的解释级别入手。 然后,您逐渐将分析和用户关注度降低到更详细,更细粒度的级别,同时尝试使受众高度参与 。 可以将其视为从飞行员到您最喜欢的度假目的地的详细飞机降落描述。 它从天空开始一直延伸到较低的高度,直到您可以真正看到自己喜欢的目的地的山脉,湖泊,建筑物或海滩和沙滩。

数据的深入了解,创造性思维和“开箱即用”的叙述是引人入胜的讲故事的必要要素。 他们可以揭示见解,影响决策并促使用户采取行动和参与。

图片信用

十一。 资料共享

现在是时候与团队的其他成员组织甚至整个世界共享和交流您的发现和交互式仪表板了。 现代商业智能工具可让您以各种格式(例如csv或pdf文件)导出分析后的全部数据或过滤后的版本。 其中一些还允许您与其他工具(例如AWS产品)共享您的发现。 在许多情况下,最终产品是一个URL ,可以将其嵌入到现有网站中,作为更大产品,活动或讲故事的一部分。 无论哪种方式,现代工具都支持大量选项。

本着互惠的精神,很少有工具会真正支持通过API访问其基础数据集,可视化和仪表板。 这样,它们便成为其他工具的数据源,就像其他工具或平台是它们的数据源一样。 传递负责任的数据共享的火炬是称为数据民主化的更大概念的一部分,我将在“摘要”部分中进行介绍。

图片信用

十二。 安全与数据治理

数据治理是组织遵循的定义过程,以确保在整个生命周期中都存在高质量的数据。 数据治理的关键领域包括:

  1. 所有权
  2. 安全
  3. 政策
  4. 工艺流程
  5. 合规
  6. 能见度

高层而言,数据治理可确保您和您的组织了解可用数据,其物理和数字存储位置,有权访问的人,处于什么级别以及制定了哪些策略和流程以确保总体安全 负责的数据访问和数据共享 。 定义明确的数据所有权目录对于确保只有合适的用户才可以访问合适的数据非常重要,这样才能将责任从IT团队转移到组织内的相应部门。

图片信用

结论与调查

构建现代商业智能工具需要从实际用户到背后的开发人员的团队合作。 这也是整个社区不仅仅支持单个产品的支持。 取而代之的是,它使知识,经验教训,常见问题和解决方案的有机增长,满足了我们从组织和全世界可用数据中获取答案的需求。 这种安全,负责的信息访问共享周期,再加上极其便捷的用户交互作用,使数据民主化 ,理想情况下,组织中的每个人都可以拿起数字存储桶并访问更大的知识和信息数字井。 关于此方法的好处以及使非技术用户成为负责访问数据的更大社区的一部分的好处,已经进行了很多研究。 在组织内部, 人们和个人处于任何工具或平台的中心,再加上更大的意愿来改变和采用真正民主化的解决方案,这种方法可能会产生长期的影响。 本地以及全球范围。

现代商业智能工具致力于实现这种影响。 他们需要在与质量相关或与技术相关的几个需求之间取得平衡,在保持可扩展性和数据爆炸性挑战的同时,保持较高的用户性能和体验。 从较高的角度来看,这些工具只是组织为将数据转换为信息 ,将见解转换为故事 ,将问题解答的更大努力的一部分。

我很好奇你的想法 现代商业智能工具。 我打算写另一篇文章,比较我在日常数据探索和冒险中构建或遇到的一些工具。 如果您有时间,我希望通过快速调查听听您的反馈意见。 它还将影响我计划在下一篇文章中介绍的工具:https://georgezoto.typeform.com/to/sJYwTX

感谢您阅读这篇冗长的文章。 非常感谢Meghan Zoto,Flavius Mihaies,Baur Safi和Nicole Eickhoff的投入和反馈。

快乐的数据探索和讲故事…

图片信用