如何解释方差分析结果?

数据挖掘 scikit-学习 统计数据 scipy
2021-10-09 03:11:56

我试图确定哪些属性在我的数据集中不相关,以便在拟合分类器之前将其删除。

目标是具有三个不同值的分类变量。

我也有很多数字属性。

对于方差分析,我使用了以下代码:

grouped_test2=df[['room_type', 'price']].groupby(['room_type'])
f_val, p_val = stats.f_oneway(grouped_test2.get_group('Entire home/apt')['price'], grouped_test2.get_group('Private room')['price'], grouped_test2.get_group('Shared room')['price'])  

自变量是room_type,解释变量是price

在这种情况下,f_val 等于 1061.64,p_val 等于 0。

我读到 0 或接近 0 的值意味着这两个变量之间存在关系,但我不确定?

什么意味着 f_val 足够接近 0 才能说这两个变量是相关的?

2个回答

f_val 是 F 统计值。数学上是

F=MSBetweenMSWithin

您的方差分析的零假设是

H0:μEntirehome/apt=μPrivateroom=μSharedroom这意味着所有的手段(μis) 相等,不需要使用解释变量进行分组

对比

HA:最后一个μi是不同的。需要分组

此测试的 p 值非常低,因此 python 返回 0。任何小于 0.05 的值都被认为足够低,可以拒绝原假设。

自变量也称为解释变量。我相信价格是一个因变量。

您必须将 F 与您的临界值进行比较,以接受零假设或拒绝零假设。我不知道你的临界值是多少,但如果 F > 临界值,你会拒绝 H0,如果 F < 临界值,你不能拒绝 H0。1061.64 的 F 值似乎非常重要!我会说你的 F 值几乎可以肯定在那个水平上具有统计学意义。P 值 < .05 也被认为具有统计学意义。如果你的 P 为 0,这绝对是统计显着的!