将两个变量折叠(组合)为一个以进行分析

机器算法验证 数据转换
2022-03-05 18:11:25

我遇到了一个让我有些困惑的话题:两个变量的合并。

假设我们有来自相同主题的两个测量值。两个变量(x1x2) 正在测量类似但不完全相同的东西。变量(或组合变量,称为x12) 稍后将用作解释变量 (X) 的一些其他变量 (Y)。

例如,假设我们要估计一个人的智商,而我们只有他父母的智商(我们不知道孩子的性别)。

哪些统计(和非统计)问题与决定是否将两种测量合并为一个相关?

需要考虑的一些问题:

  1. 假设我们稍后将拟合类型的线性回归Y~X(在哪里X或者是x1x2或两者的组合),是否有时间我们宁愿合并两个变量(x1,x2) 合二为一?
  2. 两个变量的关联如何(x1x2) 与是否合并它们的决定相关?
  3. 之间有没有关系x1/x2Y这可能会影响合并决策?
  4. 如果什么x1x2是序数变量还是强制整数变量,这对合并它们的值有影响吗?
  5. 关于这个主题还有其他我没有提到的问题需要考虑吗?
3个回答

建立在以前的答案之上:

  1. 是的,会有。在回归分析中,您假设您的回归器X彼此正交。如果你考虑IQ,收入,受教育年限,父母的种族,你最终会得到强相关的回归量。这将导致您对两者的估计 x1x2估计不准确(大标准误差),您可能会错误地得出结论认为它们不重要。有关相关回归量影响的讨论,请参阅此链接基本上,在合唱团中,很难知道谁在唱什么。

  2. 可能的组合:总和、平均值、两个(或更多)系列的第一个主成分。你必须在这里证明你的选择是合理的。在受教育年限的情况下,您可以将两个数字相加并声明为“父母的教育”。

  3. 你到底什么意思 ?

  4. 不,您可以使用任何类型的变量来执行此操作。参见受教育年限的例子。

  5. 请注意,任何数据聚合都会导致信息丢失。作为研究人员,你的工作就是权衡这种选择的利弊。

  1. 是的,见 (2)
  2. 如果预测变量以相同的方式影响您的因变量,并且您有折叠变量的理论基础,那么合并它们是有意义的。

让您想要折叠变量的关联示例:

如果您检查预测个人收入的因素,父母的教育会脱颖而出。想象一下,您知道个人父亲和母亲的最高教育水平。事实证明,关键因素是父母中任何一方的最高收入水平。如果您进行回归分析,您会发现哪位父母的教育水平更高,或者他们是否拥有相同的教育水平并不重要。相反,从这两个变量中预测几乎所有个人收入的只是父母双方的最高教育水平。因此,在这种情况下,您可能希望将这两个变量结合起来,并将该变量称为“最高水平的父母教育”。

  1. 两个变量(x1 和 x2)的关联如何与是否合并它们的决定相关?

如果变量 x1 和 x2 代表测量同一元素的两种不同方法,则将两者结合可以更准确地描述您希望测量的元素。例如,如果您需要一个表示体型的变量,可以通过对 x1 + x2 求和或通过执行主成分分析并仅选择第一个分量来组合变量 x1 = 身高和 x2 = 体重。

如果变量 x1 和 x2 是同一变量的重复测量值,则创建一个作为两者平均值的变量可能会更准确地测量所讨论的变量。

  1. 关于这个主题还有其他我没有提到的问题需要考虑吗?

如果变量是重复测量,或者变量测量的是相同的元素,但来自两个不同的对象(上面的母亲和父亲)或两个不同的部分(例如,同一个人的左右手的手腕宽度):

如果 x1 或 x2 包含异常值,或者两个变量 (x1 - x2) 之间的差异非常大,则不建议在它们之间创建平均值。