@Billy (+1) 的答案触及了您提出的问题的关键点。这些只是对您的建模策略的一些进一步想法,这些想法过于广泛而无法放入评论中。
首先,根据您的描述,尚不清楚您将使用弹性网获得什么。有 6000 个案例,并且似乎是一个具有连续值的结果,您在拟合模型时有很大的灵活性,而没有弹性网络中涉及的变量遗漏和系数惩罚。根据生物医学研究的一般经验法则,您可以在回归模型中评估 300 个或更多预测变量,而不会过度拟合模型(病例/预测变量比为 20)。如果您有数千个预测变量,例如 RNA 测序 (RNAseq) 数据,弹性网络可能有意义——这取决于您希望在未来如何应用您的模型。
其次,在这种情况下,“非线性模型”的确切含义尚不清楚。一些看起来是非线性的模型,例如将结果拟合到预测变量的多项式函数,仍然是“线性模型”,因为模型在回归系数中是线性的。有时您需要一个真正的非线性模型,但线性建模可以涵盖非常广泛的应用。您可以使用回归样条灵活地对预测变量进行建模,在线性回归之前对变量进行非线性变换(如 RNAseq 数据常用的对数变换),或使用广义线性模型在线性模型预测函数和结果。在重要的技术意义上,这些仍然被认为是线性模型。
考虑您的应用程序是否真的需要非线性模型。如果您可以在广义线性模型的上下文中执行“非线性”建模并且您确实需要使用弹性网络,那么标准工具允许您一起而不是单独执行此操作。
第三,请记住,如果相关预测变量的值也适当极端,则极端值不一定是“异常值”。值得关注的是,当观测值和模型预测值(残差)之间的差异很大或系统地变化时。您当然不希望在分析的早期阶段将极端值作为“异常值”删除,除非您知道这些值存在一些技术错误。
第四,请务必将您的网站作为预测变量包含在模型中。即使生化检测都在同一个中心位置进行,样本处理、患者特征等部位之间的差异也可能很重要,需要某种形式的统计控制。
本网站的搜索功能可以为您提供有关这些问题的大量信息。如果您没有找到有助于解决未来问题的答案,请提出更多重点问题。请参阅此帮助页面,了解编写可以帮助您和其他网站访问者的问题的方法。