寻求费舍尔关于 DoE 的名言的真实例证

机器算法验证 实验设计
2022-03-20 01:11:42

我和我的团队想向公司的非统计学家介绍实验设计的实用性。这些非统计人员也是我们的客户,他们通常不会在收集数据之前咨询我们。你知道一些真实的例子可以很好地说明费舍尔的名言“实验完成后请统计学家可能无非是让他进行验尸:他只能说实验死了什么的。” ? 最好我们正在寻找工业/制药/生物背景下的插图。我们想到了一个不确定的统计分析的例子,如果初步设计得很好,它可能会成功,但也许还有其他可能的例子。

4个回答

我遇到过实验者想要在受试者效果之间进行测试的设计,但该设计更适合在受试者效果内。

例如,一项实验由 8 只大鼠组成,其中 4 只采用饮食 A,4 只采用饮食 B,并且每天测量大鼠的体重,持续 4 周。如果他们对每种饮食的时间效应感兴趣,这很好,但目标是调查饮食的差异。

他们认为通过测量每只老鼠 28 次他们有很多数据,但饮食效果的实验单位是老鼠,他们每次治疗只有 4 只老鼠。他们可以每天测量老鼠 10 次,但这并没有什么不同,最终他们需要更多的老鼠。

我为一个名为“全国腹腔意识基金会”的组织做了一些工作。该组织提高公众对乳糜泻的认识,并提供一份包含对含麸质食物不耐受的疾病症状清单。他们在互联网上进行了一项调查,向任何想参与的人开放。多年来,他们收集了来自公众的数千条回复。然而,他们希望根据调查结果得出关于公众的结论。我不得不告诉他们,受访者是自选而不是随机选择的,这可能会产生偏见。由于偏差程度未知,尽管有大量数据,我们无法进行任何推断。

现在,受访者似乎是一个特殊的群体。许多人非常严肃,并回答表示担心他们或亲属可能患有这种疾病。但也有不同数量的人以聪明人的方式回答。从他们提供的虚假姓名、奇怪的电子邮件地址和邮政地址中可以明显看出这一点。

我认为这些数据仅在探索性意义上有用,并且响应频率可能有助于形成可以在精心策划的未来调查中进行测试的假设。但到目前为止,我的建议没有得到重视,他们正在互联网上进行另一项易于进行的自我选择调查。

前段时间,我被要求分析光伏太阳能电池阵列的夜间存储位置如何影响阵列上土壤积累速度的实验结果。(这些大型聚光光伏阵列全天跟踪太阳,但在晚上,它们通常指向正上方存储,因为这是跟踪器的最小应力位置。)污染是一个大问题,因为它显着降低了能源生产和清洁不便宜。该实验是在大约 120 个跟踪器的场地上进行的。西半部垂直存放,东半部水平存放(这与两个逆变器的跟踪器连接对齐,如果有显着影响并且没有特殊的污染模式,这将在实验期间传达能源生产优势,因此它不是,

不幸的是,从西南偏南穿过沙漠的盛行风模式很强,在该地区西部的南部有一座大型建筑,“遮蔽”了(在某种程度上)该地区西部的大部分地区被风吹颗粒. 此外,跟踪器在一定程度上相互“遮蔽”了风。因此,土壤积累的机制(例如,风吹或沉降)在整个田地的相对幅度上有所不同。这反过来意味着阵列以不同的速度积累土壤,具体取决于位置。这不是一个小影响。

分析的最终结果本质上是,存储位置产生影响并非不可信,但我们不能以任何方式排除影响微不足道的可能性,也不能以任何很大的信心确定(基于在数据上)效果的符号。然后我设计了一个后续实验,根据阵列位置分配存储位置,目的是能够估计两个存储位置的整个场地的污染“响应面”,估计“沉降”与“风吹”污染率,以及当然存储角度对这两者的影响。这个实验非常成功,仅仅几个月后,我们就能够清楚地了解垂直装载的好处。

一位同事要求我对一项研究进行“统计”,该研究旨在研究某种类型的天气事件与一种通常归因于简单磨损的基础设施故障之间的相关性。这位同事想看看天气事件是否真的导致了故障。一个团队已经花费了大量的时间和精力收集了大量的数据,研究论文也差不多完成了,他们只需要有人“做统计”并填写结果部分的最后一部分。

问题是,他们煞费苦心地确保数据集只包含相关天气事件发生的“有趣”时期。这意味着无法将事件期间的故障率与非事件时间进行比较。我反复试图解释这个问题,但他们从来没有真正相信,因为只是有这么多的数据,我肯定可以从中得到一些东西。

幸运的是,天气事件的严重程度仍然存在一定范围,严重程度和故障率之间的对应关系很弱,所以我们至少从中挽救了一些东西,但如果他们考虑如何解决,结果可能会更加明确。在开始数据收集工作之前“做统计”。