我不确定这个问题属于哪里:Cross Validated 或 The Workplace。但是我的问题与统计数据模糊不清。
这个问题(或者我猜是问题)是在我作为“数据科学实习生”工作期间出现的。我正在构建这个线性回归模型并检查残差图。我看到了明显的异方差迹象。我记得异方差会扭曲许多测试统计数据,例如置信区间和 t 检验。所以我使用加权最小二乘,遵循我在大学学到的东西。我的经理看到了这一点,并建议我不要这样做,因为“我让事情变得复杂”,这对我来说根本不是一个很有说服力的理由。
另一个例子是“删除一个解释变量,因为它的 p 值不显着”。要成为,从逻辑的角度来看,这个建议是没有意义的。根据我所了解到的,p 值不显着可能是由于不同的原因:机会、使用错误的模型、违反假设等。
另一个例子是,我使用 k 折交叉验证来评估我的模型。根据结果,只是比. 但我们确实有一个较低的对于模型 1,原因与拦截有关。不过,我的主管似乎更喜欢模型 2,因为它具有更高的. 他的理由(例如是健壮的,或者交叉验证是机器学习方法,而不是统计方法)似乎不足以说服我改变主意。
作为一个刚大学毕业的人,我很困惑。我非常热衷于应用正确的统计数据来解决现实世界的问题,但我不知道以下哪项是正确的:
- 我自己学习的统计数据是错误的,所以我只是在犯错误。
- 公司的理论统计和构建模型之间存在巨大差异。尽管统计理论是正确的,但人们只是不遵循它。
- 经理没有正确使用统计数据。
2017 年 4 月 17 日更新:我决定攻读博士学位。在统计中。谢谢大家的回复。