当目标是在分类上下文中分离有趣的预测因子时,您如何看待在小样本临床研究中应用机器学习技术,如随机森林或惩罚回归(使用 L1 或 L2 惩罚,或其组合)?这不是关于模型选择的问题,我也不是在问如何找到变量效果/重要性的最佳估计。我不打算进行强推论,而只是使用多元建模,因此避免一次针对感兴趣的结果测试每个预测变量,并考虑它们的相互关系。
我只是想知道这种方法是否已经应用于这种特殊的极端情况,比如 20-30 名受试者,其数据包含 10-15 个分类或连续变量。它不完全是案例,我认为这里的问题与我们试图解释的类的数量(通常不平衡)和(非常)小的 n 有关。我知道在生物信息学背景下关于这个主题的大量文献,但我没有找到任何与具有心理测量表型的生物医学研究相关的参考资料(例如,在整个神经心理学问卷中)。
对相关论文的任何提示或指示?
更新
我对分析此类数据的任何其他解决方案持开放态度,例如 C4.5 算法或其衍生物、关联规则方法以及任何用于监督或半监督分类的数据挖掘技术。