获取有关大量变量及其排列的“变量重要性”的估计值

机器算法验证 回归 实验设计
2022-03-22 11:13:49

我的客户想知道在许多不同类型的产品维度中,哪些维度对感知质量最重要。一些维度如下:价格、材料、原产国、您的同事/朋友是否有产品等。这些维度中的大多数都包括多个级别(例如,价格可以从1000;材料可以包括钢、塑料等;原产国包括 10 个可能的国家)。1

我们希望能够回答一般性问题,例如:在预测客户对质量的评价中,哪些因素最重要?我的客户创建了一项调查,其中向客户展示了其中三个变量的随机样本(例如,来自中国的 100 美元、塑料、小部件;来自柬埔寨的 500 美元金属桶等),并且客户评价他们认为质量有多高。

来自计量经济学背景,不清楚如何使用我的常规工具回答这类问题。似乎有大量的变量组合,无数相互作用效应的潜力似乎难以解释。

我遇到过关于联合分析和田口方法的文献,它们似乎很相关,但我发现的文章似乎广泛地描述了设计原则,而不是分析策略的机制。

具有可变重要性的随机森林似乎很有希望,但尚不清楚如何从森林中恢复回归式效应大小,也不清楚如何了解哪些相互作用最相关。

也许某种套索回归?我会完全指定所有交互,并运行 Lasso 程序吗?我担心它可能会选择无意义的交互。

如果问题没有明确说明,请致歉。我想说,“如果您的产品来自中国,X、Y、Z 特性最重要。如果您销售塑料工具,A、B、C 特性最重要。”

4个回答

小心 - 大多数分析师不使用 bootstrap 来获取变量重要性度量的置信区间,但当他们这样做时,他们通常会感到失望。除非大量数据,否则数据不包含足够的信息来可靠地告诉您数据的哪些元素是可预测的,并且没有足够的信息来告诉您每个潜在的预测器有多重要。我在BBR的第 20 章对此进行了扩展另请参阅this以了解有关附加信息的措施的讨论。

在我的领域(政治学)中,联合实验非常普遍。通常,数据以强制选择比较的形式出现——即,调查受访者会看到一系列产品配置文件之间的比较,其中产品的功能是随机的,然后受访者选择他们喜欢的产品。

在分析方面,Hainmueller、Hopkins 和 Yamamoto形式的线性回归(使用 OLS)来估计一个称为平均边际分量效应 (AMCE) 的 其中表示受访者在有选项时是否选择了个人资料

Yij=a+β1X1ij+β2X2ij++ϵij,
YijijX是特征的指示变量向量。AMCE 是选择具有特定特征的产品的概率的平均变化,相对于基线,边缘化了其他特征的分布。换句话说,它平均了所有可能的交互效果。这是一个非常简单的估计器,因为它只是 OLS。

如果您想知道特定因素的重要性如何随着其他因素的变化而变化,您可以根据其他因素(例如产品是否在中国制造)进行子集化并重新估计上述回归,或者您可以简单地包括交互指标。但是,正如您所注意到的,您无法使用 OLS 估计所有可能的交互,因为组合的数量很快就会超过受访者的数量。你使用 LASSO 的想法对我来说很有意义。要查看具有一些不错属性的此问题的另一个估计器,您可以查看Egami 和 Imai的这篇论文。

有很多选项可以确定变量的重要性。正如您所提到的,随机森林内置了一个可变的重要性度量。R 包 DALEX 也有一个与随机森林重要性类似的模型无关方法,但与模型无关。当您说这些没有效果大小时,我会不同意并说它们是可以解释的。我还建议使用信息论方法,例如信息增益,尽管这假设变量之间的条件独立。最后,您可以查看救济算法,该算法在某种程度上考虑了预测变量之间的依赖关系并适用于所有变量类型

您是否尝试过Vehtari、Gelman 和 Gabry的帕累托平滑重要性抽样 (PSIS) ?这是一个快速回顾:“帕累托平滑重要性抽样 (PSIS),一种用于正则化重要性权重的新程序”。看看论文中的例子。这应该是一个很好的起点。如果听起来你觉得有一个名为“loo”的 R 包来处理这些概念。