数据挖掘 - 为什么特征交叉可能比将它们作为单个特征更好地工作？ - 吾爱随笔录

为什么特征交叉可能比将它们作为单个特征更好地工作？

数据挖掘机器学习神经网络深度学习特征工程

2022-02-16 01:09:47

如果我们从这两个特征构建一个特征交叉：

[行为类型X一天中的时间]

那么我们最终将获得比任何一个功能本身都强得多的预测能力。例如，如果狗在下午 5:00 时（快乐地）在主人下班回来时哭泣，这可能是主人满意度的一个很好的积极预测因素。在凌晨 3:00，当主人睡得很香时，哭泣（也许是悲惨的）很可能是主人满意度的一个强有力的负面预测因素。

为什么交叉特征比将它们作为单个特征更好？

1个回答

它不一定是交叉特征。实际上，它是一个通用概念的子集，即内核技巧。使用核技巧，您将能够找到比使用当前特征空间的线性组合可以找到的通常超平面更复杂的决策边界。假设你有一个单一的功能 $x$ . 通过使用它，您将能够将一条线作为两个类的分隔符。如果你添加 $x^2$ 旁边 $x$ 您将能够拥有抛物线决策边界而不是简单的直线，这使您能够在需要的情况下拥有复杂的决策边界。此外，因为你有两个 $x$ 和 $x^2$ 您可以将每个的系数设置为零，这意味着您可以灵活地决定使用简单的线还是抛物线。

其它你可能感兴趣的问题

上一篇如何比较自组织地图的输出？下一篇检验时间序列中的异方差性