假设您观察到市场上买卖双方之间的“匹配”。您还可以观察买家和卖家的特征,您希望使用这些特征来预测未来的比赛并向市场双方提出建议。
为简单起见,假设有 N 个买家和 N 个卖家,并且每个人都找到匹配项。有 N 个匹配项和 (N-1)(N-1) 个不匹配项。包罗万象的训练数据集有 N + (N-1)*(N-1) 个观察值,可能大得令人望而却步。似乎从 (N-1)(N-1) 个不匹配项中随机抽样并在减少的数据上训练算法可能更有效。我的问题是:
(1)从不匹配中抽样来构建训练数据集是处理这个问题的合理方法吗?
(2) 如果 (1) 为真,是否有严格的方法来决定要包含多大的 (N-1)(N-1) 块?