假设我们有来自两个总体的样本:A
和B
。让我们假设这些群体是由个体组成的,我们选择根据特征来描述个体。其中一些特征是分类的(例如,他们开车去上班吗?),有些是数字的(例如,他们的身高)。我们称这些功能为:. 我们收集了数百个这样的特征(例如 n = 200),为了简单起见,我们假设所有个体都没有错误或噪音。
我们假设这两个人群是不同的。我们的目标是回答以下两个问题:
- 它们实际上有显着不同吗?
- 它们之间有什么显着不同?
决策树(例如随机森林)和线性回归分析等方法可以提供帮助。例如,可以查看随机森林中的特征重要性或线性回归中的拟合系数,以了解什么可以区分这些组,并探索特征和种群之间的关系。
在我走这条路之前,我想了解一下我的选择,什么是好的、现代的和坏的做法。请注意,我的目标不是预测本身,而是测试并发现组之间的任何显着差异。
有哪些原则性方法可以解决这个问题?
以下是我的一些担忧:
线性回归分析等方法可能无法完全回答(2),对吧?例如,单一拟合可以帮助找到一些差异,但不是所有显着差异。例如,多重共线性可能会阻止我们发现所有特征如何在组之间变化(至少在一次拟合上)。出于同样的原因,我希望 ANOVA 也无法提供 (2) 的完整答案。
目前尚不完全清楚预测方法将如何回答 (1)。例如,我们应该最小化什么分类/预测损失函数?一旦我们适应了,我们如何测试这些组是否有显着差异?最后,我担心我得到的答案 (1) 可能取决于我使用的特定分类模型集。