我目前正在使用来自玻璃门的数据(通过 kaggle 找到)调查性别薪酬差距。该数据集包含性别、年龄、员工绩效评估、资历、薪酬等列。
背景:在过去的几年里,我学习了很多数据科学/机器学习/编程,并且在申请工作之前,我只是在做一些我自己的基本投资组合项目以进行实践。
我做了一个相当幼稚的t检验,比较男性的平均工资和女性的平均工资。我现在正在寻找添加控件,比较相似的年龄组、资历、教育水平等。我想做更多的 t 检验,以及查看卡方分布和/或 ANOVA。
当我做多个测试 A/B 测试时,我想避免 p-hacking。我有一些假设,例如,我预计老年群体的薪酬差距会更大。但这主要是探索数据,我没有要为整个研究证明的单一假设,也没有政治议程。
只要我选择要进行的比较并报告所有内容,我不确定它是否真的算作 p-hacking。如果我选择报告哪个 t 检验结果来帮助证明假设,我认为这只是 p-hacking。这公平吗?
还有一个问题(暂时忘记我的数据),使用方差分析,因为它一次比较多个组以寻找意义,这不是 p-hacking 吗?