在工作环境中进行正确的统计?

机器算法验证 职业生涯
2022-02-07 06:46:13

我不确定这个问题属于哪里:Cross Validated 或 The Workplace。但是我的问题与统计数据模糊不清。

这个问题(或者我猜是问题)是在我作为“数据科学实习生”工作期间出现的。我正在构建这个线性回归模型并检查残差图。我看到了明显的异方差迹象。我记得异方差会扭曲许多测试统计数据,例如置信区间和 t 检验。所以我使用加权最小二乘,遵循我在大学学到的东西。我的经理看到了这一点,并建议我不要这样做,因为“我让事情变得复杂”,这对我来说根本不是一个很有说服力的理由。

另一个例子是“删除一个解释变量,因为它的 p 值不显着”。要成为,从逻辑的角度来看,这个建议是没有意义的。根据我所了解到的,p 值不显着可能是由于不同的原因:机会、使用错误的模型、违反假设等。

另一个例子是,我使用 k 折交叉验证来评估我的模型。根据结果​​,CVmodel1只是比CVmodel2. 但我们确实有一个较低的R2对于模型 1,原因与拦截有关不过,我的主管似乎更喜欢模型 2,因为它具有更高的R2. 他的理由(例如R2是健壮的,或者交叉验证是机器学习方法,而不是统计方法)似乎不足以说服我改变主意。

作为一个刚大学毕业的人,我很困惑。我非常热衷于应用正确的统计数据来解决现实世界的问题,但我不知道以下哪项是正确的:

  1. 我自己学习的统计数据是错误的,所以我只是在犯错误。
  2. 公司的理论统计和构建模型之间存在巨大差异。尽管统计理论是正确的,但人们只是不遵循它。
  3. 经理没有正确使用统计数据。

2017 年 4 月 17 日更新:我决定攻读博士学位。在统计中。谢谢大家的回复。

3个回答

简而言之,你是对的,他是错的。数据分析的悲剧在于很多人会做,但只有少数人能做好,部分原因是数据分析教育薄弱,部分原因是冷漠。对大多数作者名单上没有统计学家或机器学习专家的已发表研究文章持批评态度,你会很快发现诸如解释等基本错误p- 值作为原假设为真的概率。

我认为,当遇到这种情况时,唯一要做的就是用一两个例子仔细解释错误的做法的错误之处。

Kodiologist 是对的 - 你是对的,他是错的。然而可悲的是,这是一个比你遇到的更常见的地方问题。你实际上是在一个表现相对较好的行业。

例如,我目前在需要设置产品规格的领域工作。这几乎总是通过以某种方式监控产品/过程并记录手段和标准偏差来完成 - 然后使用旧的mean+3σ.

现在,除了这个置信区间没有告诉他们他们真正需要什么(他们需要一个容差区间)之外,这是盲目地对悬停在某个最大值或最小值附近的参数进行的(但区间不会' t 实际上超过了这些值)。因为 Excel 会计算他们需要的东西(是的,我说的是 Excel),所以他们根据这个设置他们的规格,尽管参数不会接近正态分布。这些人学过基本的统计学知识,但没有学过qq图之类的。最大的问题之一是统计数据会给你一个数字,即使使用不当 - 所以大多数人不知道他们何时这样做。

换句话说,绝大多数行业的绝大多数产品的规格都是无稽之谈。

我遇到的最糟糕的例子之一是人们盲目地追随统计数据,而没有理解,就是汽车行业中 Cpk 的使用。一家公司花了大约一年的时间与他们的供应商争论一个产品,因为他们认为供应商可以将他们的产品控制到一个根本不可能的水平。他们只在参数上设置了最大规格(没有最小值),并使用 Cpk 来证明他们的主张 - 直到有人指出他们的计算(当用于设置理论最小水平时 - 他们不希望这样,所以没有检查) 暗示了一个巨大的负值。这在一个永远不会小于 0 的参数上。Cpk 假设正常,该过程没有给出接近正常数据的任何地方。花了很长时间才明白这一点。所有这些都浪费了时间和金钱,因为人们没有 不明白他们在计算什么——如果没有被注意到,情况可能会更糟。这可能是导致汽车行业定期召回的一个因素!

我本人来自科学背景,坦率地说,科学和工程方面的统计学教学严重不足。我从来没有听说过我现在需要使用的大部分东西——它们都是自学的,即使是现在我的知识也存在(与适当的统计学家相比)巨大的差距。出于这个原因,我不讨厌人们滥用统计数据(我可能仍然经常这样做),这是教育水平低下。

所以,回到你原来的问题,这真的不容易。我同意 Kodiologist 的建议,尝试温和地解释这些事情,以便使用正确的统计数据。但是,我会为此添加一个额外的警告,并建议您明智地选择您的战斗,为了您的职业生涯。

这很不幸,但事实是,你无法让每个人每次都做最好的统计数据。当对最终的总体结论真正重要时选择更正它们(这有时意味着用两种不同的方式来检查)。有时(例如您的模型 1,2 示例)使用“错误”的方式可能会得出相同的结论。避免过于频繁地纠正太多人。

我知道这在智力上令人沮丧,世界应该以不同的方式运作——遗憾的是它没有。在某种程度上,你必须学会​​根据同事的个性来判断你的战斗。你的(职业)目标是成为他们真正需要帮助时求助的专家,而不是总是试图纠正他们的挑剔的人。而且,事实上,如果你成为那个人,那可能是你最成功的地方,让人们倾听并以正确的方式做事。祝你好运。

所描述的似乎有点糟糕的经历。然而,这不应该导致人们立即质疑他们自己的教育背景或他们的主管/经理的统计判断。

是的,非常非常有可能您建议使用 CV 而不是R2以模型选择为例。但是你需要找出为什么会出现这种(可能是狡猾的)方法,看看这对公司造成了怎样的伤害,然后为这种痛苦提供解决方案。除非有理由这样做,否则没有人愿意有意识地使用错误的方法。说某事是错误的(很可能是错误的)并且没有显示错误如何影响您的实际工作,而不是未来某处的渐近行为,并没有多大意义。人们将不愿意接受它;当一切都(有点)工作时,为什么还要花精力去改变?从业务角度来看,您的经理不一定是错误的。他负责您部门的统计和业务决策;这些决定不一定总是一致的,而且很可能与短期交付成果不一致(时间限制是行业数据分析中的一个非常重要的因素)。

我的建议是坚持你的(统计)枪,但对人们所做的事情持开放态度,对可能脱离新统计实践的人保持耐心,并在被问到时提供建议/意见,让皮肤变得更厚,并从你的环境中学习。如果你在做正确的事情,这将慢慢表明,人们会想要你的意见,因为他们会认识到你可以提供他们当前工作流程所不能提供的解决方案。最后,是的,当然,如果经过一段合理的时间(至少几个月)你觉得自己被贬低和不尊重,那就继续前进吧。

不言而喻,现在你身处这个行业,你不能坐视不管,认为你不需要磨练你的统计教育。预测建模、回归策略、聚类算法不断发展。例如,在工业环境中使用高斯过程回归在 10 年前接近科幻小说;现在它几乎可以看作是一种现成的尝试。