我有两个大数据集,事实上,其中一个甚至比另一个大得多。
从视觉上看,它们之间似乎没有太大区别:

箱线图下的实际数据不是正态分布的,也不能很好地标准化为转换。它们是大致相同的分布(即每个算法的 YES 和 NO 分布),但是大的数据大小差异使其他测试有点没用。我已经应用了双样本 Kolmogorov-Smirnov 检验,但这可能是错误的,并且它给出了非常显着的结果。
我的问题是:
1)考虑到两个样本之间的细微差异,对大型数据集的统计测试是否会产生显着的结果?鉴于大量数据点,“轻微”被放大了。
2) 使用大型数据集进行目视检查是否比应用可能违反某些基本假设的非参数和参数测试更好。
3) 对于这些数据,最好的行动方案是什么?
编辑我的数据具有如下结构:
我的数据格式如下:
Name Bind miRNA
a 300 NO
b 500 YES
c 140 YES
d 2345 NO