如何应对小样本研究中的探索性数据分析和数据挖掘?
机器算法验证
多重比较
流行病学
小样本
探索性数据分析
2022-02-04 05:54:01
2个回答
我只是为感兴趣的读者提供了一些关于数据挖掘和临床研究的参考资料。这是为了扩展@onestop的好答案。我试图避免只关注多重比较或设计问题的文章,尽管具有多个终点的研究继续提出具有挑战性和有争议的讨论(在罗斯曼声称无用的调整之后很久,流行病学1990,1:43-46;或参见 Feise 在BMC中的评论医学研究方法论2002, 2:8)。
我的理解是,虽然我谈到了探索性数据分析,但我的问题更广泛地涉及与假设驱动测试并行的数据挖掘及其潜在缺陷的使用。
- Koh, HC 和 Tan, G (2005)。医疗保健中的数据挖掘应用。医疗信息管理杂志,19(2),64-72。
- 约阿尼迪斯,JPA(2005 年)。为什么大多数已发表的研究结果都是错误的。公共科学图书馆医学,2(8),e124。
- Anderson, DR, Link, WA, Johnson, DH 和 Burnham, KP (2001)。提出数据分析结果的建议。野生动物管理杂志,65(3),373-378。-- 这与@onestop 的评论相呼应,即我们必须承认超出初始假设集的数据驱动探索/建模
- Michels, KB 和 Rosner, BA (1996)。数据拖网:钓鱼还是不钓鱼。柳叶刀,348,1152-1153。
- Lord, SJ, Gebski, VJ 和 Keech, AC (2004)。临床试验中的多重分析:健全的科学还是数据挖掘?. 澳大利亚医学杂志,181(8),452-454。
- Smith, GD 和 Ebrahim, S (2002)。数据挖掘、偏见或混杂。英国医学杂志, 325, 1437-1438 。
- Afshartous, D 和 Wolf, M (2007)。在多级和混合效应模型中避免“数据窥探”。皇家统计学会杂志 A , 170(4), 1035–1059
- Anderson, DR, Burnham, KP, Gould, WR 和 Cherry, S (2001)。担心发现实际上是虚假的效果。Widlife 协会公告,29(1),311-316。
我认为最重要的是在报告此类结果时要诚实,因为它们是 EDA 的意外发现,而不是基于先验假设的初始分析计划的一部分。有些人喜欢将此类结果标记为“假设生成”:例如,在 Google Scholar 上搜索该短语的第一次点击在其摘要的结论部分包含以下内容:
由于这是一项“探索性”分析,因此应将这种影响视为假设产生并在其他试验中进行前瞻性评估……
尽管请注意,尽管这是一项事后亚组分析,但它来自一项随机对照试验,而不是一项观察性研究,其中问题变得更糟。菲利普科尔对观察性(“流行病学”)研究可以在故意挑衅但有趣的评论中产生假设的想法嗤之以鼻:
P科尔。假设生成机。 流行病学1993;4 :271-273。
其它你可能感兴趣的问题