我一直在玩弄这个想法。我认为文本挖掘文献中可能有一些方法,但我没有遇到任何恰到好处的东西......
什么是/是一些解决问题的方法,其中变量的数量本身就是一个变量。这不是数据缺失问题,而是问题性质发生根本性变化的问题。考虑以下示例:
假设我想预测谁将赢得比赛,这是一个简单的多项式分类问题。我有很多过去的比赛数据,有很多可以训练的。让我们进一步假设我观察到每个参赛者都参加了多场比赛。然而,问题是数字或赛车手是可变的。有时只有 2 名赛车手,有时有多达 100 名赛车手。
一种解决方案可能是使用我选择的任何方法为每个数字或赛车手训练一个单独的模型,在这种情况下产生 99 个模型。例如,我可以有 100 个随机森林。
另一种解决方案可能是包含一个名为“number_of_contestants”的附加变量,并为 100 名赛车手提供输入字段,并在没有赛车手时将其留空。直观地说,如果赛车手的数量遵循泊松分布(我最初没有在问题中指定,但我在这里说),这种方法似乎很难预测 100 名参赛者比赛的结果。
想法?