大块数据的数学严格定义是什么?

机器算法验证 数据集 术语 质量控制 分箱 间隔审查
2022-03-20 00:43:21

在工作场所,某些测量设备会受到不同的数值精度的影响;在某些情况下,准确度可能很弱(即,只有一个或两个有效值)。因此,不是像这样的数据集:

{0.012,0.033,0.042,0.982,1.028,1.037,1.950},
其中每个值都是唯一的,我们最终得到一个如下所示的数据集:
{0.0,0.0,0.0,1.0,1.0,1.0,2.0}.
绘制在单个移动极差图上,后一组看起来更“笨重”,并且潜在的问题是当测量增量太大时,估计数据中的真实变化变得更加困难。

我的问题如下:如果我想让计算机检测大块数据,那么我必须为这种现象提供一个逻辑定义。我已经看到说“3 个或更少的不同值”或“4 个或更少的不同值”的定义,但我不知道这些定义是如何获得的,以及这些标准的基础/理由是什么。

任何人都可以帮助指导我进行严格的定义和证明吗?

4个回答

像这样的数据通常被称为quantized,特别是当数字的精度受到测量设备的限制时。例如,秤可能只显示克或磅的整数。当模拟信号(来自麦克风、应变仪等)被数字化时,这尤其常见。产生的误差(例如,第一个数据点的 0.012 和 0 之间的差异)称为量化误差。您也可以将其称为roundingdiscretization,尽管这隐约暗示它是在后期处理期间完成的。

截断也适用于此,但需要区分截断观测值的范围(例如,将任何高于 10 的值转换为 10,或将低于 0 的值转换为 0)和截断单个观测值的值。


我不知道在任何情况下都能稳健地检测量化的方法。事实上,几乎所有数据都在某种程度上进行了量化,并且量化量通常可以从测量设备的规格中提前知道。但是,您可以尝试一些简单的启发式方法:

  • 你有多少独特的价值?数模转换器使用固定位数(通常为 8、12、16 或 24),这为您提供唯一值,并且这些值通常在最大值和最小值之间等距分布。28,212,216224

  • 值之间是否存在一致的步长。换句话说,对它们进行排序,丢弃重复项,然后查看相邻值是否通常会增加相同的数量。

不过,我认为您最好先询问数据是如何生成的。


如果数据被“轻度”量化,通常不是问题。例如,如果我的人类受试者的体重以(整数)磅或公斤记录,我不会太担心。如果数据被高度量化,您可以将其视为区间删失数据。这在生存分析中尤其常见,您可能只检查某人是否还活着或某物是否在某个固定时间间隔运行(例如,每周对工厂进行检查)。如果这适合您的情况,请搜索区间回归。

您应该确保了解对分箱数据运行的任何测试所依据的零假设。例如,均匀分布在 10 个 bin 中的数据与均匀分布在整个范围内的数据完全不同。

通常,“分箱数据”是指这种方式。

如果您考虑直方图,则每个条都指一个 bin。如果某个值介于给定 bin 的上端和下端之间,则将该值放置在该 bin 中。例如,如果您由于简单的舍入而对数据进行了分箱(即,1.01 的真值在数据集中表示为 1.0),您可以认为观察值 1.0 意味着真值实际上在区间 [0.5, 1.5) .

通常,这方面的数据经常被忽略;使用主题的整数年龄(28 岁)而不是确切的年龄(28.153 ...)通常没有什么问题。在分箱效应可能很大的情况下(即在公司工作的年数;1/12 与 5/12 有很大不同,但四舍五入后两者均为 0),数据可被视为已删失的区间,以解释准确响应中的这种不确定性价值。

在您的情况下,它称为quantization,这是信号处理的常见问题。通常你会看到均匀分布的数据(即使你没有得到多重性)。

一般来说(是否有很多点彼此靠近,没有必要具有相同的值或间距),看看clustering对于一维值,对它们进行排序并获取最接近值之间差异的直方图。

为了添加其他好的答案,以及对块状来源的更多评论 - 量化也可能出于社会原因而发生,例如,如果您详细查看钻石数据集的直方图,您会在“nice”看到明显的尖峰值,0.3、0.4、0.5、0.7、1.0、1.2、1.5、2.0 等。重量为 0.98 的钻石很少,但重量刚刚超过 1.0 的钻石很多,这被解释为 - 没有人愿意得到 0.98克拉钻石......他们想要一颗 1.0 克拉的钻石!

在此处输入图像描述

library(ggplot2)
data(diamonds)
ggplot(diamonds, aes(x=carat)) + geom_histogram(bins=200) + xlim(0,2.1)