我有一个模拟相对复杂场景的模拟器。我从模拟器状态中提取了大约 12 个离散特征,这些特征构成了我的 MDP 状态空间的基础。
假设我通过运行大量模拟并提取特征转换作为状态转换来估计 MDP 的转换表。
虽然我可以随机化模拟器的启动条件以增加状态的覆盖率,但我不能保证所有状态都会在样本中表示,即可能但很少见的状态。
在这种情况下,是否有严格的方法来“填补空白”转换表?
例如:
对于样本中未表示的每个状态,只需以相等的概率转换到所有其他状态,作为填补空白的“中立”方式?
如上所述,但只转换到表示的状态(以相等的概率)?
以 1.0 的概率转换到相同的状态?
在 MDP 求解过程中完全忽略未表示的状态,只指定默认操作?