当您无法创建理想实验时该怎么做的教科书/阅读材料?

机器算法验证 参考 实验设计
2022-01-24 11:43:34

我的统计培训植根于数理统计,在我的 MS 中学习这些方法课程目前有点震惊;由于我缺乏行业经验,目前我很难理解其中一些“应用”的方法。

我们在我的方法课程中一直在讨论的主题之一是实验设计的想法。

例如,假设我想对声称提高 K-12 学生考试成绩的教育计划的有效性进行实验。

在方法课上,他们教了以下内容来解决这样的问题:确保你有一个好的研究问题,一个好的数据收集方法,一个随机实验,同质的治疗组(即,一个接受这个程序治疗的人,一个可能不)理想情况下大小相等,然后运行t-test(或某种非参数假设检验),一切都很好,对吧?

我不太相信这就是它在现实中的运作方式。

我了解到,当然,您可能需要进行一些便利抽样。但除此之外,除了从教科书上学到的东西外,我不知道如何实施实验设计。

是否有任何教科书、阅读材料等在实践中探索这些问题(理想情况下,不要掩盖数学——我不需要所有事情的详细证明,但我不想被告知一切都是“明显”,例如)?

4个回答

有两个领域几乎总是不可能进行随机实验:它们是社会科学和经济学。在这些情况下,您只能进行“准实验”。尝试使用关键字准实验、观察性研究和社会科学进行搜索;你会得到一些很好的教科书。我可以推荐两本关于这个主题的优秀书籍:Shadish 和 Cook 的第二本书是经典之作:

  1. 反事实和因果推理:摩根和 Winship 的社会研究方法和原则
  2. William R. Shadish 和 Thomas D. Cook 的广义因果推理的实验和准实验设计

还强烈推荐Dehejia 和 Wahba在非实验环境中使用称为“倾向得分匹配”的技术进行因果推理的经典论文。

其他建议:

  1. Paul R. Rosenbaum 的观察研究设计。
  2. 统计、社会和生物医学科学的因果推理:Imbens 和 Rubin 的介绍。

如果您正在查看时间序列准实验,则上述书籍有一些专门的章节,但专门的书是 Gene v. Glass Design and Analysis of Time-Series Experiments,我会查看他的文章Interrupted time series

琐事:Gene V Glass 创造了“元分析”一词。

这就是准实验设计可能有用的地方。在实践中的许多情况下,实验设计是不实用的,因为尽管您有治疗,但您无法对组进行随机分配,或者您可能只有一个组。

在您的教育示例中,您可能无法控制谁接受治疗,因为您打算对一所学校的所有孩子进行干预。但是,您也许可以将他们的分数与前几年的分数进行比较,或者随机分配教室,以便某些班级先于其他班级接受干预,或者比较多所学校,包括那些没有接受干预的学校。

在只有一组的情况下进行中断的时间序列设计可能是有意义的,但要不断地进行测量,并在研究期间进行治疗。这样,您可以查看因变量的斜率是否在治疗后立即发生变化,相对于整个研究的整体斜率。测量次数可以低至 3 次,但越多越好。

所以,我的建议是阅读准实验研究设计。

对因果关系最彻底、一般和精确的处理是 Judea Pearl 2009,“Causality”,第 2 版,剑桥大学出版社。

特别是,它清楚地表明因果关系并不是一个真正的统计问题——即使无限的数据也不能解决它。它引入了一种精确的语言来表达因果推断所需的定性和理论知识。您会看到随机化失败只是众多问题中的一个。它还包含所有其他数学框架,例如 Imbens、Rubin 和 Rosenbaum 的那些。我不能夸大他的方法是多么容易理解、优雅和强大。

我强烈推荐它。但是,您应该以非线性的方式阅读它(第 5 章和第 11 章更容易理解,然后您可以向后阅读第 1、3 和 7 章以理解一般理论)。

当您了解基础知识后,您可以轻松查看最近的进展,例如何时可以将因果发现从一个上下文“传输”到另一个上下文,即使使用随机化也不一定可能(Pearl、Judea 和 Elias Bareinboim 2014,“外部有效性:从做微积分到跨人群的可迁移性。”统计科学)。

也许这些就是你要找的...

实验者统计

实验设计与分析

用 R 设计和分析实验(与上一个标题无关)

使用数据改进流程(免费在线或 PDF 格式,第 5 章涵盖 DoE)