让我定义问题空间。
我正在处理一个二进制分类问题。我正在尝试建立因果模型和预测模型。
我的目标是找到重要特征的列表(基于因果模型)并使用它来构建预测模型。我确实参考了这篇文章中提供的建议,它非常有用,但由于我在 ML 领域的局限性,我还有一些问题。
我从文献中了解到,有两种方法可以调整/控制混杂因素。一个是通过study design
阶段,另一个是在modelling/analysis
阶段。
由于我正在进行回顾性数据分析,我只能在分析阶段调整混杂因素。
我们知道,Age
像“性别导致心脏病”这样的典型例子中的某些特征是一个混杂因素。
1)所以在分析阶段,我们age
在模型中包含一个变量。同样,我们能想到的所有潜在混杂因素都作为特征放入模型中。例如:X_train
将包含我认为是潜在混杂因素的所有列/特征,然后将其输入模型(逻辑回归)。我到这里了吗?
2)这是否意味着我们的 LR 模型针对混杂因素进行了调整?您将如何在逻辑回归建模阶段进行混杂调整?如果我们在模型中包含所有潜在的混杂因素,并且如果已经存在coeff
的变量 (gender
age
3) 那么,为什么这么logistic regression doesn't consider feature interaction
说呢?特征交互与混淆不同吗?我知道特征交互通常表示为,gender*age
但这是否意味着两个变量共同影响结果?混杂的意思不一样吗?
4)拥有交互变量有什么用处?我gender*age
的意思是如果影响结果,我能理解gender
(个人)和age
(个人)影响结果吗?
5)我看到人们通常会创建2x2
称为分层的表以进行分层分析和计算risk ratio
并将其与crude risk ratio
. 但是,对于我认为在我的数据集中作为混杂因素的所有变量,我们如何才能做到这一点呢?我知道我们可以使用诸如SPSS, STATA
etc 之类的工具,但这是唯一的方法吗?但是我们不能使用多元回归吗?
6)是否必须将我们所有的连续变量转换为一些分类变量以进行分析/混杂调整?
7)任何简单的示例/解释都会有所帮助,因为我找不到任何教程来调整逻辑回归期间的混杂并找到重要变量。我一直在提到这个,虽然它很有用,但有些链接坏了。出现了很多问题,因为我既不是统计人员也不是生物统计人员。我通常使用经典的 ML 算法构建模型,现在尝试学习所有这些。