机器学习技术在小样本临床研究中的应用

机器算法验证 机器学习 特征选择
2022-02-06 03:35:46

当目标是在分类上下文中分离有趣的预测因子时,您如何看待在小样本临床研究中应用机器学习技术,如随机森林或惩罚回归(使用 L1 或 L2 惩罚,或其组合)?这不是关于模型选择的问题,我也不是在问如何找到变量效果/重要性的最佳估计。我不打算进行强推论,而只是使用多元建模,因此避免一次针对感兴趣的结果测试每个预测变量,并考虑它们的相互关系。

我只是想知道这种方法是否已经应用于这种特殊的极端情况,比如 20-30 名受试者,其数据包含 10-15 个分类或连续变量。它不完全是np案例,我认为这里的问题与我们试图解释的类的数量(通常不平衡)和(非常)小的 n 有关。我知道在生物信息学背景下关于这个主题的大量文献,但我没有找到任何与具有心理测量表型的生物医学研究相关的参考资料(例如,在整个神经心理学问卷中)。

对相关论文的任何提示或指示?

更新

我对分析此类数据的任何其他解决方案持开放态度,例如 C4.5 算法或其衍生物、关联规则方法以及任何用于监督或半监督分类的数据挖掘技术。

4个回答

我也没有看到它在生物信息学/机器学习之外使用过,但也许你可以成为第一个 :)

作为生物信息学中小样本方法的一个很好的代表,当参数数量在观察数量中呈指数时,使用 L1 正则化的逻辑回归可以很好地拟合,可以使用 Chernoff 型不等式(即,例如,杜迪克(2004 年))。Trevor Hastie 已经完成了一些工作,将这些方法应用于识别基因相互作用。在下面的论文中,他使用它来识别模型的显着影响,该模型具有 310,637 个可调整参数,适合 2200 个观测样本

“通过套索惩罚逻辑回归进行全基因组关联分析。” 作者:Hastie,T;索贝尔,E;吴,T.T;陈永芳;Lange, K Bioinformatics Vol: 25 Issue: 6 ISSN: 1367-4803 Date: 03/2009 Pages: 714 - 721

Victoria Stodden 的相关演示(模型选择具有比观察更多的变量

我对具有 15 个预测变量和 20 个样本量的探索性分析结果的普遍性几乎没有信心。

  • 参数估计的置信区间会很大。例如,在 r = .30 和 n = 20 上的 95% 置信区间是 -0.17 到 0.66。
  • 当您以探索性和数据驱动的方式使用多个预测器时,问题往往会变得复杂。

在这种情况下,我的建议通常是将分析限制在双变量关系上。如果您采用贝叶斯观点,那么我会说您之前的期望与数据同等重要。

一个常见的经验法则是训练数据实例的数量至少是分类器中可调整参数的 10 倍(更不用说任何测试/验证数据等)。请记住,您有一个问题,您不仅需要有足够的数据,还需要有代表性的数据。最后,没有系统的规则,因为在做这个决定时有很多变数。正如 Hastie、Tibshirani 和 Friedman 在《统计学习的要素》(参见第 7 章)中所说:

很难给出关于多少训练数据足够的一般规则;除其他外,这取决于底层函数的信噪比,以及适合数据的模型的复杂性。

如果您是该领域的新手,我建议您阅读来自生物医学工程百科全书的这篇简短的“模式识别”论文,其中简要总结了一些数据问题。

我可以向您保证,RF 在这种情况下会起作用,并且其重要性度量将非常有见地(因为不会像标准 (n << p)s 中那样具有误导性的不重要属性的大尾巴)。我现在不记得任何处理类似问题的论文,但我会寻找它。