调查人群之间的差异

机器算法验证 方差分析 随机森林 大车 群体差异
2022-03-07 17:02:42

假设我们有来自两个总体的样本:AB让我们假设这些群体是由个体组成的,我们选择根据特征来描述个体。其中一些特征是分类的(例如,他们开车去上班吗?),有些是数字的(例如,他们的身高)。我们称这些功能为:X1Xn. 我们收集了数百个这样的特征(例如 n = 200),为了简单起见,我们假设所有个体都没有错误或噪音。

我们假设这两个人群是不同的。我们的目标是回答以下两个问题:

  1. 它们实际上有显着不同吗?
  2. 它们之间有什么显着不同?

决策树(例如随机森林)和线性回归分析等方法可以提供帮助。例如,可以查看随机森林中的特征重要性或线性回归中的拟合系数,以了解什么可以区分这些组,并探索特征和种群之间的关系。

在我走这条路之前,我想了解一下我的选择,什么是好的、现代的和坏的做法。请注意,我的目标不是预测本身,而是测试并发现组之间的任何显着差异。

有哪些原则性方法可以解决这个问题?

以下是我的一些担忧:

  • 线性回归分析等方法可能无法完全回答(2),对吧?例如,单一拟合可以帮助找到一些差异,但不是所有显着差异。例如,多重共线性可能会阻止我们发现所有特征如何在组之间变化(至少在一次拟合上)。出于同样的原因,我希望 ANOVA 也无法提供 (2) 的完整答案。

  • 目前尚不完全清楚预测方法将如何回答 (1)。例如,我们应该最小化什么分类/预测损失函数?一旦我们适应了,我们如何测试这些组是否有显着差异?最后,我担心我得到的答案 (1) 可能取决于我使用的特定分类模型集。

2个回答

让我们认为问题如下。

X=(X1,X2,..Xn)Y是代表人口的二元变量:Y=0表示第一人口,Y=1指第二人口。零假设可以用几种等效的方式表示:

  • H0: 人口是一样的
  • H0: 的分布X给定Y=0与分布相同X给定Y=1
  • H0XY是独立的
  • H0: 对于任何功能f进入{0,1},f(X)Y是独立的

我对随机森林了解不多,但它们可能被认为是避免过度拟合的万能预测器。如果我们将它们理想化一点:它能够检测到它们之间的任何类型的关系Y和任何类型的功能X没有过拟合。

可以基于此尝试一些东西。将原始数据集拆分为训练集和测试集。然后:

  • 训练随机森林f预测YX在训练集上。
  • 做一个简单的卡方独立性检验(有风险α) 之间f(X)Y在测试集上

这个测试相当保守。如果随机森林是一种糟糕的方法,最坏的情况是输出一个愚蠢的f(X),那么它将拒绝H0概率小于α无论如何(当H0是真的)。由于我们使用了测试集和训练集,因此过度拟合甚至不会成为问题。但是,测试的功效直接取决于随机森林方法(或使用的任何预测器)的智能。

请注意,您可以使用几种可能的预测变量:首先是普通的逻辑回归,然后是具有一些交叉特征的逻辑回归,然后是一些决策树,然后是随机森林......但如果你这样做了,你应该调整α测试次数,以避免“错误发现”。请参阅:多重测试的 Alpha 调整

你没有说数据中有多少可用的特征。少,多,大?我们是否可以假设它们是人群之间的相同特征,都使用相同的工具、方法和模式进行测量?如果不是,那么您将遇到更大的问题,即变量误差测量模型可能会起作用。

@benoitsanchez 似乎已经回答了问题 #1)。

Wrt #2),我不确定 RF 是否有帮助。通过使用更正式的模型,例如一次应用于一个特征的单向方差分析,可以开发出对特征群体之间差异的测试。通过根据测试的大小及其重要性总结这些测试的结果,可以描述人口在不同特征之间的差异。这是一个公认的临时和启发式解决方案,对于您的品味、偏好和培训可能不够严格。

不擅长 Latex 类型的表示法,让我简单描述一下这些测试是如何工作的:首先,构建某种宏循环,一次一个地传递所有特征。随着循环的每一次通过,新特征成为目标或 DV,其中X由人口虚拟变量以及任何适当的控制变量组成。确保对每个特征使用相同的控件,并确保所有 ANOVA 的基础数据完全相同,从而消除因有限数据样本的变迁而导致的变化。聚合每个特征的虚拟变量的 F 检验值。这将提供一个标准化的度量标准,可以跨特征进行比较。F 检验优于拟合beta,因为beta没有标准化,以每个单独功能的单位和标准开发人员表示。

您的最后一条评论“我担心我得到的答案 (1) 可能取决于我使用的特定分类/回归模型集”,这始终是正确的。答案很可能因所使用的模型而异。这也是在理论性更强且受过经典训练的统计学家中普遍观察到的不适的一种表现,他们不适应或难以承认应用统计建模的不确定性。Efron 和 Hastie 最近的著作Computer Age Statistical Inference是这些症状的极好解毒剂。他们坦率地承认所有人的迭代、近似、启发式本质,将统计建模带入了 21 世纪,这是一个数据科学和机器学习的时代。具有误差项的模型。一个人不必是贝叶斯主义者就可以认识到这一观察中固有的真相。他们的观点令人耳目一新,与 20 世纪 20 世纪经典统计实践的僵化决定论不同,后者在交叉积矩阵不会反转和/或某些迂腐模型假设未得到满足时举手投降。