基于相同基础数据的几个自变量

数据挖掘 特征选择 多类分类 特征提取 相关性 互信息
2021-10-09 01:35:21

我得到了一个数据,其中包含两个特征变量,它们基于相同的基础数据(即具有互信息),但它们传达不同的信息/消息。如何处理此类情况?

由于从逻辑上讲,它们将高度相关,因此只使用其中一个是有意义的,最好是传达更多信息的那个。但:

  1. 这是正确的方法,还是我们实际上因为不包含而丢失了有价值的信息?
  2. 如果包括它是正确的方法,是否需要做任何其他事情和/或检查以防止弄乱模型(因为它们将高度相关)?

示例 1:

  • 假设我们有一个特征,它可以是从 到 的任意数字的13,例如(1,1), (3,2),(2,1)等。
  • 我们还有另一个特征,它告诉我们前一个特征中有多少个(即1),因此对于前面的情况,这将对应于2, 0,1
  • 尽管第二个特征没有为我们提供第一个特征本身不存在的任何新信息(即可以从第一个特征推导出来),但它确实有一些特殊的含义,即假设一个的数量是预期的影响结果(因变量)。

示例 2:

  • 一个变量是离散/整数值,另一个是0第一个特征的值是否低于某个特定值,以及1是否更高或相同。
  • 就像在示例 1中一样,第二个特征具有一些特殊含义。
1个回答

对于预测能力,一般来说,包括两者都不成问题。但这里有很多细微差别。

最重要的是,如果预测能力不是您关心的全部:如果您正在进行统计推断,或者关心可解释性和特征重要性,那么将两者都包括在内可能会导致问题。简而言之,您的模型可能会将基础变量的重要性分散到所有派生变量中。

在某些情况下,它可能根本没有帮助:第二个示例中的树模型已经可以很容易地发现仅给定原始变量的派生变量。它可能是有害的:添加太多这些派生变量可能会为您的模型提供噪声,而不是有用的信号。

在某些情况下,它可能会有很大帮助:在您的第一个示例中,线性分类器根本看不到原始特征的派生特征,而树模型需要多次连续拆分才能看到它。神经网络可以构建它,但尚不清楚训练过程是否会找到它。