我正在尝试通过模型堆叠解决Quora 问题对。
我的第一层是:
- 训练有素的 CNN 可以预测与整个模型相同的目标
- “神奇特征”,例如整个数据集中的问题频率
第二个是梯度提升。
我的第一次尝试是在整个训练数据集(10% 用于开发)上训练 CNN,而不是在同一分割上训练梯度提升(GB)。
正如预期的那样,这很糟糕,因为 GB 了解到 CNN 几乎总是正确的。
所以我将训练数据分成 10 个部分,并训练了 10 个不同的 CNN,其中 1 个部分作为 dev。比我用 CNN 对开发部分的预测训练 GB(所以它几乎是看不见的数据)。并在测试数据集上使用 10 个 CNN 的平均值来处理相同的特征。
结果比仅应用于“魔法特征”的梯度提升更糟糕。
你能帮我找出我的错误吗?