给定具有许多特征变量的基于回归的模型;您将使用哪些工具来确定哪些特征变量增加的方差最大?

数据挖掘 机器学习 回归 数据集 方差 多输出
2022-03-08 12:58:12

给定一个具有 100 个 X 特征变量和 10 个预测 Y 变量的假设数据集 {S}。

X1 ... X100 Y1 …… Y10
1 .. 2 3 .. 4
4 .. 3 2 .. 1

假设我想提高 Y1 的准确性。我准备约束/删除输入变量以提高准确性。我将如何寻找使 Y1 比需要的变量更大的罪魁祸首?

例如,我发现 X49 与 Y1 的变化幅度最大,并且在约束它之后 Y1 拟合得更好。

我将如何找到它的X49?

编辑:我正在寻求敏感性分析的方法。不决定需要删除哪些变量。假设所有 100 个 X 变量都很重要,但有些需要限制(例如 X49)

1个回答

可能有更聪明的方法,但我会简单地尝试在没有的情况下拟合模型Xi对于每个功能Xi(也是具有所有功能的参考模型)。相比之下,模型X49被删除应该获得最低的方差,如果X49是造成很多差异的原因。

请注意,通常会导致大量差异的特征是重要的,因为如果它不重要,那么它不会对目标产生太大影响。