机器算法验证 - 如何应对小样本研究中的探索性数据分析和数据挖掘？ - 吾爱随笔录

如何应对小样本研究中的探索性数据分析和数据挖掘？

机器算法验证多重比较流行病学小样本探索性数据分析

2022-02-04 05:54:01

探索性数据分析 (EDA) 通常会导致探索不一定属于初始假设集的其他“轨迹”。在样本量有限且通过不同问卷收集的大量数据（社会人口统计数据、神经心理学或医学量表——例如，心理或身体机能、抑郁/焦虑水平、症状清单）的研究中，我面临这种情况）。碰巧 EDA 有助于突出一些意外的关系（“意外”意味着它们未包含在初始分析计划中），这些关系转化为额外的问题/假设。

与过拟合的情况一样，数据挖掘或窥探确实会导致无法泛化的结果。然而，当有大量数据可用时，（对于研究人员或医生）很难假设一组有限的假设。

我想知道是否有公认的方法、建议或经验法则可能有助于在小样本研究的情况下描述 EDA。

2个回答

我只是为感兴趣的读者提供了一些关于数据挖掘和临床研究的参考资料。这是为了扩展@onestop的好答案。我试图避免只关注多重比较或设计问题的文章，尽管具有多个终点的研究继续提出具有挑战性和有争议的讨论（在罗斯曼声称无用的调整之后很久，流行病学1990，1：43-46；或参见 Feise 在BMC中的评论医学研究方法论2002, 2:8)。

我的理解是，虽然我谈到了探索性数据分析，但我的问题更广泛地涉及与假设驱动测试并行的数据挖掘及其潜在缺陷的使用。

Koh, HC 和 Tan, G (2005)。医疗保健中的数据挖掘应用。医疗信息管理杂志，19（2），64-72。
约阿尼迪斯，JPA（2005 年）。为什么大多数已发表的研究结果都是错误的。公共科学图书馆医学，2（8），e124。
Anderson, DR, Link, WA, Johnson, DH 和 Burnham, KP (2001)。提出数据分析结果的建议。野生动物管理杂志，65（3），373-378。-- 这与@onestop 的评论相呼应，即我们必须承认超出初始假设集的数据驱动探索/建模
Michels, KB 和 Rosner, BA (1996)。数据拖网：钓鱼还是不钓鱼。柳叶刀，348，1152-1153。
Lord, SJ, Gebski, VJ 和 Keech, AC (2004)。临床试验中的多重分析：健全的科学还是数据挖掘？. 澳大利亚医学杂志，181（8），452-454。
Smith, GD 和 Ebrahim, S (2002)。数据挖掘、偏见或混杂。英国医学杂志, 325, 1437-1438 。
Afshartous, D 和 Wolf, M (2007)。在多级和混合效应模型中避免“数据窥探”。皇家统计学会杂志 A , 170(4), 1035–1059
Anderson, DR, Burnham, KP, Gould, WR 和 Cherry, S (2001)。担心发现实际上是虚假的效果。Widlife 协会公告，29(1)，311-316。

我认为最重要的是在报告此类结果时要诚实，因为它们是 EDA 的意外发现，而不是基于先验假设的初始分析计划的一部分。有些人喜欢将此类结果标记为“假设生成”：例如，在 Google Scholar 上搜索该短语的第一次点击在其摘要的结论部分包含以下内容：

由于这是一项“探索性”分析，因此应将这种影响视为假设产生并在其他试验中进行前瞻性评估……

尽管请注意，尽管这是一项事后亚组分析，但它来自一项随机对照试验，而不是一项观察性研究，其中问题变得更糟。菲利普科尔对观察性（“流行病学”）研究可以在故意挑衅但有趣的评论中产生假设的想法嗤之以鼻：

P科尔。假设生成机。 流行病学1993；4 :271-273。

其它你可能感兴趣的问题

上一篇留一法交叉验证如何工作？如何从中选择最终模型nn不同的型号？下一篇损失函数和评估指标