我正在研究预测推文受欢迎程度的问题,并想测试零假设:喜爱计数与另一组变量(如用户的朋友数量)之间没有关系。
我不确定是否对变量进行规范化或标准化,因为我正在考虑如何对流行度进行建模并且不知道用户之间的喜欢和朋友的分布情况如何(请告知)。
所以我尝试了这两个,并尝试了一个独立的t_test。
我得到了非常不同的结果:
from sklearn.preprocessing import StandardScaler, MinMaxScaler
do_scaled = pd.DataFrame(StandardScaler().fit_transform(do[columns].values), columns=columns)
ttest_ind(do_scaled.favorite_count, do_scaled.user_favourites_count)
#Ttest_indResult(statistic=-1.682257624164912e-16, pvalue=0.9999999999999999)
#pvalue is about 1 : the association is likely due to pure chance
这里是一个显示异常值分布的箱线图(StandardScaler)
from sklearn.preprocessing import StandardScaler, MinMaxScaler
do_scaled = pd.DataFrame(MinMaxScaler().fit_transform(do[columns].values), columns=columns)
ttest_ind(do_scaled.favorite_count, do_scaled.user_favourites_count)
#Ttest_indResult(statistic=-5.999028611045575, pvalue=2.3988962933916377e-09)
#pvalue is almost 0 (less than 1%) : there is an association between predictor and response.
这是一个显示异常值分布的箱线图(MinMaxScaler)
我不明白为什么我会得到相反的结果,也不知道如何解释它们。你能建议吗?你能帮忙解决这个问题吗?