数据可视化101：有目的的设计，不要塞满您的图表小小书 XXshu

数据可视化在很大程度上是一种艺术形式，它要求艺术家根据他们拥有的数据种类，数据的结构以及他们要说的内容做出良好的设计选择。

我每天都遇到不良dataviz的例子。有些是由于创建者的意图而坏的，而另一些则是出于更加无害的原因而坏的，例如创建者不遵守基本的格式设置规则，未选择正确的图表，或者只是试图将太多内容打包成一个图形。

我最近遇到了一份报告，其中包含一个图表，该图表属于后一类。也就是说，创作者有良好的意图，但在此过程中做出了一些错误的设计选择。我想与您分享此图表，并针对出现问题的地方以及如何以更有效的方式提出它提供一些想法。

不幸的是，我实际上无法在此处上传原始图形，因为它已在付费报告中显示，并且重新分配受版权保护。但是，我已经重建了图表并删除了数据集的某些元素。这应该让您了解图表试图说的内容，而无需重新分配报告的一部分和基础数据集。

如果您有兴趣，可以在此处访问报告，但需要付费才能查看完整的出版物，包括我要呼出的图表。值得一提的是，尽管这张图表的设计不佳，但实际上它是一个有趣的报告，可以很好地了解如何在各个行业中应用/感知数据分析。所以去看看吧。该报告还有一个免费样本，您可以在其中查看关键发现和要点。

好吧，继续。

在展示图表之前，了解底层数据集的结构很重要。该图表是根据专家组（例如，高级管理人员）完成的调查创建的。该调查向受访者提供了3条陈述，要求他们使用李克特量表进行评分（即，完全同意，部分同意，中立，部分不同意，强烈不同意）。如果您在调查中看到此问题，则可能看起来像这样：

该报告还提供了两个时间间隔（在此情况下为2015年和2016年）的数据。这仅表示作者在两个不同的年份中使用完全相同的问题集进行了相同的调查，以显示数据随时间的变化趋势。

以下是我对图表的重新了解。再次，我删除了某些信息，以便不透露报告中的实际发现。

那么这张图怎么了？好吧，从技术上讲，从根本上来说，没有任何错误或欺骗。但是，它充斥着数据，使其变得混乱且难以解释。问题的症结在于，创建者试图在传统图表类型（即100％堆积的条形图）中包含太多变量和维度，而这种类型和功能不足以处理这么多数据。我已经写过关于可视化两个以上变量的挑战，而破解它通常涉及更富创造性的方法来考虑可视化。有关在单个图形中可视化多个变量的一个很好的示例，请参阅Charles Joseph Minard关于拿破仑失败的俄罗斯战役的专题图（在单个图形上绘制六个不同的数据点！）。

那么这张图到底出了什么问题。这对我来说很突出。

1-单个图形中的变量和尺寸过多

正如我上面提到的，此图表包含很多数据。特别是，作者试图将5个子变量（即完全同意，部分同意等）和1维（即二进制时间间隔）中的3个变量（即语句）可视化。在一张图表中有很多话要说。在接下来的两点中，我们将对此进行更多说明。但是可以说，使用单个传统图表不容易将他们想要在此处呈现的大量数据可视化。

2-难以跨时间间隔进行比较

可以使用多种方法来呈现此数据，但是最有效的方法取决于创建者的原始目的或目标。在这种情况下，我可以确定目标是强调时间间隔之间的差异（例如，2015年至2016年之间的同意与反对意见的变化）。这是很重要的一点，因为如果目标不是关于时间变化，而是在一个时间间隔中说更多的是语句之间的差异，那么您可能会选择不同的方法来表示数据。

鉴于上述目标，我对这张图表的主要抱怨是，在比较过去两年的数据时，不必要地增加了负担。这是因为使用100％堆积的条形图，您甚至没有跨响应类别的基线来轻松比较第1年和第2年。下图说明了我在说什么。

当然，您仍然可以在图表上使用数据标签来比较％值，但是您可以像在表中一样轻松地显示此数据，而且阅读起来也容易得多。创建者选择以这种方式将数据可视化的事实表明，他/她希望找到一种更简便的方法，让他们的读者以视觉上吸引人的方式查看时间变化。善意，执行力差。

我确实认为，如果创建者不尝试显示数据的趋势，而是专注于比较这3种陈述的研究结果，则此方法会很好。下面是一个示例，它基本上是相同的图表，但仅显示1个时间间隔（即2016年）。

在此示例中，读者仍然可以比较这3条语句的细分百分比，但是不必强迫他们尝试比较任何一条语句的时间变化。这是一个重要的区别，因为上面显示的方法不需要读者在脑海中排队各个类别的％细分，以查看逐年增量。

3 —百分比百分比

最后但并非最不重要的一点是，我发现该图表特别难以阅读的地方是y轴刻度与响应选项之间的百分率之间的关系（即，强烈同意等）。读者的阅读比例为100％，但是您还需要解释3个语句在2个时间间隔内的响应类别中断。同样，数据从根本上没有错。但是，该死的很难阅读，而且随着时间的推移，仍然很难进行比较。作为读者，您被要求一次阅读，处理和解释许多不同的事物。

那么如何改进呢？

在展示展示数据的几种不同方法之前，我想花一点时间来讨论为什么这很重要。您可能会看到有问题的原始图表并说：“嘿，它并不完美，但我仍然可以阅读。那么这里真的有什么不对吗？”

我的回答当然是，该死。可视化数据的目的是使原始数据更易于处理和解释。因此，在可视化数据时，您应该始终实现的目标是速度。也就是说，您的听众可以得出有意义结论的速度。如果您的听众需要花5分钟时间尝试理解图表，然后再继续解释它的内容，那么您就不能有效地使用可视化。当然也有例外，因为某些数据分析很少是为了通知观众，而是更多地是激发好奇心或从混乱中创造美。

过去，我曾讨论过使用一种称为可读性测试的方法来对您创建的图表进行质量控制。您可以在下面的幻灯片中阅读有关它的更多信息。关键是，您想要设计图表和数据图形，以使其尽可能易于阅读和解释。

在 Slideshare上查看 以上幻灯片的完整演示 。

现在回到有问题的图表。对于如何更有效地呈现这些数据，我有一些想法-一种简单的方法依赖于创建图表的传统方法，另一种方法则需要更多的自定义可视化。

简单的方法

我在此保留创作者的最初目标的某些自由，但假设重点确实在于比较随时间的变化，我的建议是将其分为3个单独的图表，而不是尝试将其塞入一个图表。这听起来像个警察，但请相信我不是。原始调查中的3条陈述中的每条陈述都代表了受访者必须回答的根本不同的问题，应该对它们进行单独分析，而不是一次全部进行分析。

通过这种方法，我使用了标准（非堆叠）条形图，在x轴上绘制了响应选项，并将时间间隔作为数据序列。同样，我的目标是关注随时间的变化，因此我保留了时间维度，但将每个变量都划分到了自己的图表上。我只介绍了以下3个图表中的1个，但是您可以理解我的工作方向。

通过在此处不使用堆积图，您可以得到一个均匀的基线来比较随时间变化以及每个响应类别的变化。通过将陈述分为3个单独的图表，读者可以花时间在所提出的每个问题的背景下解释结果。

您可以应用的另一种处理方式是将肯定和否定响应类别组合在一起（即，将“完全同意+部分同意”与“强烈不同意+部分不同意”相结合）。在将类别与封闭式调查数据结合在一起时，您确实需要轻描淡写，因为这有时会导致对数据的误解。因此，在执行此操作之前，请始终考虑问题文本，问题类型以及这可能会影响听众的理解。另外，我总是会声明您已经在图表的某处重新编码或合并了响应类别。就所涉及的图表而言，报告作者还是倾向于通过报告净同意和不同意的总变化百分比来在书面分析中合并类别。因此，您也可以将这种想法应用于图表似乎很合理。如下所示：

坦白说，这实际上是通过为读者提供3个响应类别而不是5个响应类别来稍微减轻认知负担。这可能不起作用，甚至不适用于每种情况。但是对于该数据集，我确实发现类别越少，数据读取越容易。我还认为，这种方法可以更清楚地说明原始图表所伴随的分析-越来越多的受访者（即高级主管）转向同意2016年的声明，而不是2015年的声明。

不太容易的方法

如前所述，当您使用多元图表时，有时在Excel之类的程序中可用的标准图表选项并不总是能够胜任该任务。对于这些情况，需要更具创意和定制的方法。我们现在正在进入自定义数据可视化领域，但是我模拟了一种方法，该方法与我们通常所接触的传统图表相距不远。

首先，一些警告。我在假设以下图表的情况下设计了此图表：a）目标是突出时间变化，b）我想在单个图形上显示所有3个变量（即语句）。为了简化图表，我将同意和不同意类别进行了合并，并完全删除了中立点，因此我们甚至获得了基准。

这是它的样子。

这基本上是一个堆积的条形图，不同意的列被绘制为负值。穿过中心的深灰色线用作同意系列（蓝色）和不同意系列（浅灰色）的零基线。

不用说，此图表在显示时需要进行很多警告，例如，为了易于阅读，已删除了中性响应。它不是完美的，但肯定是使我们更接近创建更易于阅读的复杂，多元图表的一种方法。

那么，您应该从中拿走什么呢？

一些东西。首先，始终确保您考虑图表或可视化的目标。您可以拥有完全相同的数据集，并选择以多种不同方式对其进行可视化，并且它不一定是错误的或糟糕的。您的目标将为您提供各种信息，从图表类型到与格式相关的更精细的设计选择。因此，请确保您知道您要说的话，并牢记这一点。简单地说，有目的的设计。

就是说，切勿让您的意图驱使您删除上下文或欺骗观众。 Jason Chaffetz现在臭名昭著的“计划生育”图表就是一个很好的例子，说明图表创建者的偏见（通常对基本图表格式规则的处理不善）会导致设计直截了当的图表。

最后，您可以说有效的数据可视化位于明确目标，出色设计和良好意图的交汇处。

帖子的原件出现在我的博客上-http: //analythical.com