
由于“数据”实际上是“数据科学”中的第一个词,因此了解数据的不同分类方式是有意义的,对吗? 是的,有几种方法…
分类数据与数值数据
这是最简单的一种,也是我们大多数人都熟悉的分类类型。

分类数据是与组或类别相关的数据。 例如,“笔记本电脑品牌”是一个类别,其值类似于Apple,Microsoft和Dell。 它还包括“是/否”数据。 例如,问题“你结婚了吗?” 会以“是”或“否”的形式引出受访者的数据点。诸如Tableau之类的商业智能(BI)工具通常将分类数据称为“ 维度” 。
数字数据是指数字形式的数据。 例如,每100名受访者的身高(厘米)。 它可以进一步分类为:
- 离散数据—这是数值有限的数字数据。 例如,对象的数量,例如篮子里的苹果数量。
- 连续数据 —这是具有无限数量值的数字数据。 例如,时间测量。 当我们测量日常生活中的时间时,它看起来只是“离散”的,因为我们不再计算秒数。
根据测量类型

这是两级分类。 在第一级,我们可以将数据度量分类为定性或定量:
定性数据是指描述某物的性质或质量的非数字数据。 例如,星期几。
它可以进一步分类为:
- 标称数据-这些数据点可以具有固定数量的可能值或标签。 例如,性别或季节。 从统计角度看,名义数据用途有限。 它没有很多可以做的。 我们可以进行频率分布,但是我们甚至无法计算常见的中心趋势度量,例如均值和中位数。 但是请注意,可以计算模式(最大次数出现的值)。
- 顺序数据-这些数据点具有固定数量的可能值,这些值以特定方式排序。 例如,李克特量表的可能值为“可怕”,“不良”,“中立”,“良好”,“优秀”。 从统计的角度来看,序数数据要比标称数据好,但仍然用途有限。 我们可以从技术上计算中心趋势测度,例如序数数据的均值和中位数,但准确性和相关性值得商bat。 模式可能仍然是序数数据的最佳选择。
定量数据是指度量某事物的大小或数量的数字数据。 例如-通勤上班的距离。
它可以进一步分类为:
- 间隔数据-间隔数据是数字数据,是从序数数据开始的逐步升级。 因此,我们不仅在值中具有顺序,而且可以测量值之间的确切差异。 例如-我们可以将10°C和15°C之间的差计算为5°C。 这使得间隔数据对于统计分析更加有用。 我们可以有意义地计算中心趋势测度,并且可以添加或减去间隔数据。 但是,间隔数据有局限性。 这些是什么? 最重要的是,它们没有“真零”。 这有点令人困惑。 继续以温度为例,如果没有真正的零值,则意味着我们无法测量温度的不存在。 我们不能说某物没有温度。 那是什么问题呢? 好吧,我们不能例如对区间数据进行乘除运算。 我们不能说100/5 = 20,所以20°C是100°C的1/5或20%。 换句话说,因为没有起点,所以100°C的温度不会比20°C高五倍。
- 比率数据-比率数据是不受间隔数据缺陷影响的数字数据。 这意味着它们具有“真零”值,可用于所有类型的计算。 可以理解,它们是用于统计分析的最通用的数据类型。 例如-距离。 我的房子和办公室之间的距离是10公里,而我的房子和健身房之间的距离是5公里。 因此,我可以肯定地说,办公室距离我家的体育馆的距离是我家健身房的两倍(但在办公室里找到我的次数要比在健身房要多得多😄)。
传统数据与大数据

数据的这种区分更多地基于技术。
传统数据-指我们一直在“传统”工具和技术中使用的数据。 例如-Excel电子表格或Oracle数据库。 传统数据主要采用表格形式。 对于关系数据库,我们可以有成千上万个相互关联的表。 通常使用SQL(结构化查询语言)查询传统数据。
大数据-大数据是指用于存储和使用数据的新技术。 例如,一个Mongo数据库。 这包括使用非常规数据类型(例如图像,视频,整个文件等)以及传统数据类型(例如Facebook,YouTube等)。
通常,当我们谈论传统数据和大数据之间的差异时,首先想到的是数据库的大小(由于某种原因,大数据被称为“大”,对!)。 因此,例如几百GB的传统数据与几PB的大数据。 但是,大数据之所以“大”,不仅仅是因为数据库的大小。 还有其他一些因素可以使数据变得“庞大”,例如:
- 种类-Instagram生成大量数据,从简单的字符串和数字到音频文件和视频文件。
- 速度—处理新数据并反馈给用户的速度。 考虑一下Facebook帖子上“喜欢”的即时更新。
- 可变性-像Google这样的一些公司从大量不同类型的数据源中生成数据。
希望这会有所帮助! 在 LinkedIn 和Medium 上关注我以 获取更多内容。
再见!