预测治疗结果的神经网络模型

机器算法验证 预测模型 神经网络
2022-04-09 20:40:46

我想使用人口统计学、血浆生物标志物、遗传和临床数据来预测特定治疗(无论是否缓解)的结果。神经网络模型是最好的方法吗?与传统的逻辑回归模型构建相比,这有什么优势?取决于共线性,我只有 120 个案例和多达 40 个协变量的限制有多大?我如何减少这些?我通常会倾向于因子分析,但神经网络会合理地组合共线变量吗?任何关于像这样组合多模式数据的想法都会有所帮助,或者作为阅读的起点——已经有了 Ripley's MASS。

2个回答

在拟合神经网络之前进行 PCA 通常是一个好主意,因此您的直觉可能就在那里。确定哪种模型更适合给定问题的唯一方法是交叉验证两者并比较样本外错误。

R 中的caret 包是使用这种技术(特别是train 函数)比较模型的好方法作为奖励,它包括一个名为pcaNNet的模型,它在拟合神经网络之前计算主成分。

何时使用神经网络的一般规则:

1)您可以相对容易地说出正确答案是什么,但不能描述您如何知道这是正确答案;如果您知道要采取哪些步骤来获得正确答案,则对其进行编码而不是训练 NN,并且如果您无法判断正确答案可能是什么,则 NN 可能也无法做到 2) 90% 的准确率就足够了(例如,当其他技术的准确率大大降低时);NN 本质上不会提供 100% 的无懈可击的准确度 3)您只需要正确的答案,而不是了解如何做;NN 就其性质而言,往往不会对系统的性质提供很多洞察力

顺便说一句,给神经网络提供原始数据和它的变换(平均值、增量等)并让学习算法决定哪些对预测有用,这比自己弄清楚要好;如果您确定了关于哪些因素很重要以及如何对其进行编码的所有内容,那么您已经完成了 NN 无论如何都可以为您完成的大部分工作(不是全部)。

ps 多次运行 NN 并取得最佳结果是个好主意;任何好的神经网络实现都是随机的,不同的运行可能会更好或更差。