我得到了一个数据,其中包含两个特征变量,它们基于相同的基础数据(即具有互信息),但它们传达不同的信息/消息。如何处理此类情况?
由于从逻辑上讲,它们将高度相关,因此只使用其中一个是有意义的,最好是传达更多信息的那个。但:
- 这是正确的方法,还是我们实际上因为不包含而丢失了有价值的信息?
- 如果包括它是正确的方法,是否需要做任何其他事情和/或检查以防止弄乱模型(因为它们将高度相关)?
示例 1:
- 假设我们有一个特征,它可以是从 到 的任意数字的
1对3,例如(1,1),(3,2),(2,1)等。 - 我们还有另一个特征,它告诉我们前一个特征中有多少个(即
1),因此对于前面的情况,这将对应于2,0,1等 - 尽管第二个特征没有为我们提供第一个特征本身不存在的任何新信息(即可以从第一个特征推导出来),但它确实有一些特殊的含义,即假设一个的数量是预期的影响结果(因变量)。
示例 2:
- 一个变量是离散/整数值,另一个是
0第一个特征的值是否低于某个特定值,以及1是否更高或相同。 - 就像在示例 1中一样,第二个特征具有一些特殊含义。