对于双模态数据,scipy 适合 t 分布似乎被破坏了

数据挖掘 统计数据
2022-02-27 11:51:35

我正在使用 scipy.stats.t.fit 函数,我对结果感到惊讶。如果我适合一些双峰数据,比如说

data=[1,1,1,1,5,5]

我明白了

df=0.39126249808550329
loc=1.0
scale=5.7172845190830792e-21

也就是说,比例实际上为零,我永远无法采样接近 5 的任何东西,只有更频繁的数据点 1。

我想你真的不能适应与 t 分布相差太大的数据 - 但是 scipy 真的给数据提供了最好的 t 分布吗?我认为如果我自己计算样本均值和方差,即

df = 5
loc = 2.33
scale = 1.88

尽管我还没有计算出[1,1,1,5,5]从这两个 t 分布中采样的可能性,但我会更合适。

1个回答

t 检验有许多假设。该数据集违反了其中几个:

  • 数据应该足够大(>30 个独立点)
  • 数据应近似正态分布

假设违反了假设,您不能期望得到有效的结果。