因此,我正在训练一个分类任务,该任务将 2x2x2 魔方的状态描述作为输入,并输出最佳移动。我注意到的一个潜在问题是,在许多州,不止一个动作是最优的。特别是,只有大约 46% 的州只有一个最优棋步,24% 有 2 个,12% 有 3 个,等等。所以我有几个选择。
我想到的选项是
- 让每个数据点随机选择最佳移动
- 对每个最优移动包含相同概率的数据点进行交叉熵最小化。即 (0.5,0.5,0,0,0,0,0,0,0) 如果前两个是最优的
- 丢弃具有不止一个最佳移动的状态(这看起来真的很糟糕)
标准做法是什么?另外,1和2有区别吗?
如有必要,您可以假设我正在使用神经网络模型