数据挖掘 - 如何解释方差分析结果？ - 吾爱随笔录

如何解释方差分析结果？

数据挖掘 scikit-学习统计数据 scipy

2021-10-09 03:11:56

我试图确定哪些属性在我的数据集中不相关，以便在拟合分类器之前将其删除。

目标是具有三个不同值的分类变量。

我也有很多数字属性。

对于方差分析，我使用了以下代码：

grouped_test2=df[['room_type', 'price']].groupby(['room_type'])
f_val, p_val = stats.f_oneway(grouped_test2.get_group('Entire home/apt')['price'], grouped_test2.get_group('Private room')['price'], grouped_test2.get_group('Shared room')['price'])

自变量是room_type，解释变量是price。

在这种情况下，f_val 等于 1061.64，p_val 等于 0。

我读到 0 或接近 0 的值意味着这两个变量之间存在关系，但我不确定？

什么意味着 f_val 足够接近 0 才能说这两个变量是相关的？

2个回答

f_val 是 F 统计值。数学上是

$F = \frac{MS_{Between}}{MS_{Within}}$

您的方差分析的零假设是

$H_0: \mu_{Entire home/apt} = \mu_{Private room} = \mu_{Shared room}$ 这意味着所有的手段（ $\mu_i$ s) 相等，不需要使用解释变量进行分组

对比

$H_A:$ 最后一个 $\mu_i$ 是不同的。需要分组

此测试的 p 值非常低，因此 python 返回 0。任何小于 0.05 的值都被认为足够低，可以拒绝原假设。

自变量也称为解释变量。我相信价格是一个因变量。

您必须将 F 与您的临界值进行比较，以接受零假设或拒绝零假设。我不知道你的临界值是多少，但如果 F > 临界值，你会拒绝 H0，如果 F < 临界值，你不能拒绝 H0。1061.64 的 F 值似乎非常重要！我会说你的 F 值几乎可以肯定在那个水平上具有统计学意义。P 值 < .05 也被认为具有统计学意义。如果你的 P 为 0，这绝对是统计显着的！

其它你可能感兴趣的问题

上一篇从 excel 文件读取时出现 Pandas 日期时间错误下一篇为什么 Caret featurePlot 返回返回 NULL？