在Google ML Crash Course上是这样说的:
如果我们从这两个特征构建一个特征交叉:
[行为类型X一天中的时间]
那么我们最终将获得比任何一个功能本身都强得多的预测能力。例如,如果狗在下午 5:00 时(快乐地)在主人下班回来时哭泣,这可能是主人满意度的一个很好的积极预测因素。在凌晨 3:00,当主人睡得很香时,哭泣(也许是悲惨的)很可能是主人满意度的一个强有力的负面预测因素。
为什么交叉特征比将它们作为单个特征更好?
在Google ML Crash Course上是这样说的:
如果我们从这两个特征构建一个特征交叉:
[行为类型X一天中的时间]
那么我们最终将获得比任何一个功能本身都强得多的预测能力。例如,如果狗在下午 5:00 时(快乐地)在主人下班回来时哭泣,这可能是主人满意度的一个很好的积极预测因素。在凌晨 3:00,当主人睡得很香时,哭泣(也许是悲惨的)很可能是主人满意度的一个强有力的负面预测因素。
为什么交叉特征比将它们作为单个特征更好?
它不一定是交叉特征。实际上,它是一个通用概念的子集,即内核技巧。使用核技巧,您将能够找到比使用当前特征空间的线性组合可以找到的通常超平面更复杂的决策边界。假设你有一个单一的功能. 通过使用它,您将能够将一条线作为两个类的分隔符。如果你添加旁边您将能够拥有抛物线决策边界而不是简单的直线,这使您能够在需要的情况下拥有复杂的决策边界。此外,因为你有两个和您可以将每个的系数设置为零,这意味着您可以灵活地决定使用简单的线还是抛物线。