目视检查是比较大型数据集的唯一方法吗?

机器算法验证 非参数 大数据 箱形图
2022-04-01 03:40:31

我有两个大数据集,事实上,其中一个甚至比另一个大得多。

从视觉上看,它们之间似乎没有太大区别:

比较来自不同算法的基因目标,具体取决于它们内部是否有 miRNA

箱线图下的实际数据不是正态分布的,也不能很好地标准化为转换。它们是大致相同的分布(即每个算法的 YES 和 NO 分布)​​,但是大的数据大小差异使其他测试有点没用。我已经应用了双样本 Kolmogorov-Smirnov 检验,但这可能是错误的,并且它给出了非常显着的结果。

我的问题是:

1)考虑到两个样本之间的细微差异,对大型数据集的统计测试是否会产生显着的结果?鉴于大量数据点,“轻微”被放大了。

2) 使用大型数据集进行目视检查是否比应用可能违反某些基本假设的非参数和参数测试更好。

3) 对于这些数据,最好的行动方案是什么?

编辑

我的数据具有如下结构:

我的数据格式如下:

Name    Bind    miRNA
a       300     NO
b       500     YES
c       140     YES
d       2345    NO
3个回答

我建议用不依赖于正态性的一般稳健度量来总结差异:来自 Wilcoxon-Mann-Whitney 两样本检验的一致性概率。一致性比例估计 A 组中随机选择的值超过 B 组中随机选择的值的概率。这可以推广到您的“成对配对”设置,在该设置中,您可以估计方法 1 提供的测量值是“ A 和 B 之间比方法 2 更一致”。这是在 RHmiscrcorrp.cens函数中实现的。

  1. 是的。这是对大型数据集进行标准拟合优度测试的一个关键问题。
  2. 我更喜欢目视检查,以及效果大小的测量。即使分布有很大的重叠,某些 KPI 提高 15% 也可能非常有用。我不会太在意特定的发行版,具体取决于您的特定应用程序。此外,箱线图是显示数据的相当粗略的方式。这里有一些选择。

  3. 很难说,因为我们不知道你的数据......我关于效果大小的建议可能已经有帮助了。

大数据集的统计汇总并没有错。如果一种方法适用于 N = 100,那么它适用于 N = 100,000 或 100,000,000。

然而,大多数人对 p 值的解释存在问题。您的第一个问题的答案是“是”,但该答案只是另一个迹象,表明您应该查看效果大小,而不是 p 值。

关于您的第二个问题:视觉检查对于大型或小型数据集至关重要。但是数字比较对两者都非常有用。它们的效用不是数据集大小的函数。

关于您的第三个问题:同时使用视觉和数字比较。选择 1) 适合您的数据和 2) 适合您想询问的有关数据的问题的视觉和数字方法。