数据科学| 统计＃1 —不同类型的数据分类小小书 XXshu

由于“数据”实际上是“数据科学”中的第一个词，因此了解数据的不同分类方式是有意义的，对吗？是的，有几种方法…

这是最简单的一种，也是我们大多数人都熟悉的分类类型。

分类数据是与组或类别相关的数据。例如，“笔记本电脑品牌”是一个类别，其值类似于Apple，Microsoft和Dell。它还包括“是/否”数据。例如，问题“你结婚了吗？” 会以“是”或“否”的形式引出受访者的数据点。诸如Tableau之类的商业智能（BI）工具通常将分类数据称为“ 维度” 。

数字数据是指数字形式的数据。例如，每100名受访者的身高（厘米）。它可以进一步分类为：

这是两级分类。在第一级，我们可以将数据度量分类为定性或定量：

定性数据是指描述某物的性质或质量的非数字数据。例如，星期几。

它可以进一步分类为：

标称数据-这些数据点可以具有固定数量的可能值或标签。例如，性别或季节。从统计角度看，名义数据用途有限。它没有很多可以做的。我们可以进行频率分布，但是我们甚至无法计算常见的中心趋势度量，例如均值和中位数。但是请注意，可以计算模式（最大次数出现的值）。
顺序数据-这些数据点具有固定数量的可能值，这些值以特定方式排序。例如，李克特量表的可能值为“可怕”，“不良”，“中立”，“良好”，“优秀”。从统计的角度来看，序数数据要比标称数据好，但仍然用途有限。我们可以从技术上计算中心趋势测度，例如序数数据的均值和中位数，但准确性和相关性值得商bat。模式可能仍然是序数数据的最佳选择。

定量数据是指度量某事物的大小或数量的数字数据。例如-通勤上班的距离。

它可以进一步分类为：

间隔数据-间隔数据是数字数据，是从序数数据开始的逐步升级。因此，我们不仅在值中具有顺序，而且可以测量值之间的确切差异。例如-我们可以将10°C和15°C之间的差计算为5°C。这使得间隔数据对于统计分析更加有用。我们可以有意义地计算中心趋势测度，并且可以添加或减去间隔数据。但是，间隔数据有局限性。这些是什么？最重要的是，它们没有“真零”。这有点令人困惑。继续以温度为例，如果没有真正的零值，则意味着我们无法测量温度的不存在。我们不能说某物没有温度。那是什么问题呢？好吧，我们不能例如对区间数据进行乘除运算。我们不能说100/5 = 20，所以20°C是100°C的1/5或20％。换句话说，因为没有起点，所以100°C的温度不会比20°C高五倍。
比率数据-比率数据是不受间隔数据缺陷影响的数字数据。这意味着它们具有“真零”值，可用于所有类型的计算。可以理解，它们是用于统计分析的最通用的数据类型。例如-距离。我的房子和办公室之间的距离是10公里，而我的房子和健身房之间的距离是5公里。因此，我可以肯定地说，办公室距离我家的体育馆的距离是我家健身房的两倍（但在办公室里找到我的次数要比在健身房要多得多😄）。

数据的这种区分更多地基于技术。

传统数据-指我们一直在“传统”工具和技术中使用的数据。例如-Excel电子表格或Oracle数据库。传统数据主要采用表格形式。对于关系数据库，我们可以有成千上万个相互关联的表。通常使用SQL（结构化查询语言）查询传统数据。

大数据-大数据是指用于存储和使用数据的新技术。例如，一个Mongo数据库。这包括使用非常规数据类型（例如图像，视频，整个文件等）以及传统数据类型（例如Facebook，YouTube等）。

通常，当我们谈论传统数据和大数据之间的差异时，首先想到的是数据库的大小（由于某种原因，大数据被称为“大”，对！）。因此，例如几百GB的传统数据与几PB的大数据。但是，大数据之所以“大”，不仅仅是因为数据库的大小。还有其他一些因素可以使数据变得“庞大”，例如：

希望这会有所帮助！ 在 LinkedIn 和Medium 上关注我以 获取更多内容。

再见！

数据科学| 统计 ＃1 —不同类型的数据分类