我对强化学习很陌生,我的项目将包括使用 RL 检测车道。
我正在使用 q-learning,我很难思考我的 q 表应该是什么样子,我的意思是 - 什么可以代表一个状态。我的主要想法是为机器提供一个包含道路图片的框架,边缘检测功能正在应用于该框架(并因此获得大量出现在框架中的线条)。并训练机器哪些线是正确的车道线。我已经有一个可以识别车道的确定性函数,它将是教导机器的函数。我已经组织了一些车道参数,例如(车道长度、车道线、车道颜色(白色或黄色更有可能成为车道)、车道直径和车道坡度)。
现在,我唯一的问题是我应该如何构建 Q 表。基本上,什么可以代表一个状态以及我应该奖励哪些通道或决定。