特征交互和混杂变量之间的差异

数据挖掘 机器学习 深度学习 统计数据 逻辑回归 因果关系
2022-02-10 18:39:16

让我定义问题空间。

我正在处理一个二进制分类问题。我正在尝试建立因果模型和预测模型。

我的目标是找到重要特征的列表(基于因果模型)并使用它来构建预测模型。我确实参考了这篇文章中提供的建议,它非常有用,但由于我在 ML 领域的局限性,我还有一些问题。

我从文献中了解到,有两种方法可以调整/控制混杂因素。一个是通过study design阶段,另一个是在modelling/analysis阶段。

由于我正在进行回顾性数据分析,我只能在分析阶段调整混杂因素。

我们知道,Age像“性别导致心脏病”这样的典型例子中的某些特征是一个混杂因素。

1)所以在分析阶段,我们age在模型中包含一个变量。同样,我们能想到的所有潜在混杂因素都作为特征放入模型中。例如:X_train将包含我认为是潜在混杂因素的所有列/特征,然后将其输入模型(逻辑回归)。我到这里了吗?

2)这是否意味着我们的 LR 模型针对混杂因素进行了调整?您将如何在逻辑回归建模阶段进行混杂调整?如果我们在模型中包含所有潜在的混杂因素,并且如果已经存在coeff的变量 (genderage

3) 那么,为什么这么logistic regression doesn't consider feature interaction说呢?特征交互与混淆不同吗?我知道特征交互通常表示为,gender*age但这是否意味着两个变量共同影响结果?混杂的意思不一样吗?

4)拥有交互变量有什么用处?gender*age的意思是如果影响结果,我能理解gender(个人)和age(个人)影响结果吗?

5)我看到人们通常会创建2x2称为分层的表以进行分层分析和计算risk ratio并将其与crude risk ratio. 但是,对于我认为在我的数据集中作为混杂因素的所有变量,我们如何才能做到这一点呢?我知道我们可以使用诸如SPSS, STATAetc 之类的工具,但这是唯一的方法吗?但是我们不能使用多元回归吗?

6)是否必须将我们所有的连续变量转换为一些分类变量以进行分析/混杂调整?

7)任何简单的示例/解释都会有所帮助,因为我找不到任何教程来调整逻辑回归期间的混杂并找到重要变量。我一直在提到这个,虽然它很有用,但有些链接坏了。出现了很多问题,因为我既不是统计人员也不是生物统计人员。我通常使用经典的 ML 算法构建模型,现在尝试学习所有这些。

1个回答

一些评论(据我了解您的问题):

  1. 在因果模型中,您需要反映“数据生成过程”(DGP)。DGP 是一种理论结构。你需要想出与你的研究问题相关的想法,那么以因果方式解释您还可以包含不那么重要的变量。在趋势中,规格不足(排除重要变量)是一个真正的问题。过度规范也可能是一个问题,但后果不太明显。Xy
  2. 我认为这里的措辞不清楚。在某些领域,“调整混杂因素”意味着“控制”所有相关变量(又名混杂因素)。要做的第一件事:正确措辞并理解您说“混杂因素”时的意思。
  3. 这种说法来自哪里(“功能交互”)。一般来说,Logit 是一个在包含变量的方式上呈线性的模型,因此如果您考虑模型中两个或多个的交互作用,那么不会:Logit 不考虑交互作用,除非您指定模型以包含交互作用项.x
  4. 考虑交互的一种简单方法是连续变量与虚拟变量(1 或 0)的交互。在模型你只有一个截距()和一个斜率()。之间具有交互作用的模型中,您有的斜率相同,的情况下截距不同考虑交互的另一种方法是添加“平方”项,因为平方项只是交互x1x2
    y=β0+β1x1
    β0β1x1x2
    y=β0+β1x1+β2x2
    x1x2=1x1x1
  5. 我不明白这一点:需要参考!我猜你说的是包含指标变量(又名虚拟变量)作为交互??!
  6. 不,您可以使用任何数字作为x
  7. 这里,读这本书