在工作场所,某些测量设备会受到不同的数值精度的影响;在某些情况下,准确度可能很弱(即,只有一个或两个有效值)。因此,不是像这样的数据集:
我的问题如下:如果我想让计算机检测大块数据,那么我必须为这种现象提供一个逻辑定义。我已经看到说“3 个或更少的不同值”或“4 个或更少的不同值”的定义,但我不知道这些定义是如何获得的,以及这些标准的基础/理由是什么。
任何人都可以帮助指导我进行严格的定义和证明吗?
在工作场所,某些测量设备会受到不同的数值精度的影响;在某些情况下,准确度可能很弱(即,只有一个或两个有效值)。因此,不是像这样的数据集:
我的问题如下:如果我想让计算机检测大块数据,那么我必须为这种现象提供一个逻辑定义。我已经看到说“3 个或更少的不同值”或“4 个或更少的不同值”的定义,但我不知道这些定义是如何获得的,以及这些标准的基础/理由是什么。
任何人都可以帮助指导我进行严格的定义和证明吗?
像这样的数据通常被称为quantized,特别是当数字的精度受到测量设备的限制时。例如,秤可能只显示克或磅的整数。当模拟信号(来自麦克风、应变仪等)被数字化时,这尤其常见。产生的误差(例如,第一个数据点的 0.012 和 0 之间的差异)称为量化误差。您也可以将其称为rounding或discretization,尽管这隐约暗示它是在后期处理期间完成的。
截断也适用于此,但需要区分截断观测值的范围(例如,将任何高于 10 的值转换为 10,或将低于 0 的值转换为 0)和截断单个观测值的值。
你有多少独特的价值?数模转换器使用固定位数(通常为 8、12、16 或 24),这为您提供或 唯一值,并且这些值通常在最大值和最小值之间等距分布。
值之间是否存在一致的步长。换句话说,对它们进行排序,丢弃重复项,然后查看相邻值是否通常会增加相同的数量。
不过,我认为您最好先询问数据是如何生成的。
如果数据被“轻度”量化,通常不是问题。例如,如果我的人类受试者的体重以(整数)磅或公斤记录,我不会太担心。如果数据被高度量化,您可以将其视为区间删失数据。这在生存分析中尤其常见,您可能只检查某人是否还活着或某物是否在某个固定时间间隔运行(例如,每周对工厂进行检查)。如果这适合您的情况,请搜索区间回归。
您应该确保了解对分箱数据运行的任何测试所依据的零假设。例如,均匀分布在 10 个 bin 中的数据与均匀分布在整个范围内的数据完全不同。
通常,“分箱数据”是指这种方式。
如果您考虑直方图,则每个条都指一个 bin。如果某个值介于给定 bin 的上端和下端之间,则将该值放置在该 bin 中。例如,如果您由于简单的舍入而对数据进行了分箱(即,1.01 的真值在数据集中表示为 1.0),您可以认为观察值 1.0 意味着真值实际上在区间 [0.5, 1.5) .
通常,这方面的数据经常被忽略;使用主题的整数年龄(28 岁)而不是确切的年龄(28.153 ...)通常没有什么问题。在分箱效应可能很大的情况下(即在公司工作的年数;1/12 与 5/12 有很大不同,但四舍五入后两者均为 0),数据可被视为已删失的区间,以解释准确响应中的这种不确定性价值。
在您的情况下,它称为quantization,这是信号处理的常见问题。通常你会看到均匀分布的数据(即使你没有得到多重性)。
一般来说(是否有很多点彼此靠近,没有必要具有相同的值或间距),看看clustering。对于一维值,对它们进行排序并获取最接近值之间差异的直方图。