我发现这两个概念令人困惑,因为我觉得模仿学习只是监督学习的“子集”。但是经过仔细考虑之后,我想不出有什么区别,觉得它们是一样的。
他们是一样的吗?还是彼此不同?
我发现这两个概念令人困惑,因为我觉得模仿学习只是监督学习的“子集”。但是经过仔细考虑之后,我想不出有什么区别,觉得它们是一样的。
他们是一样的吗?还是彼此不同?
在监督学习中,每个数据示例都有一个标签。
模仿学习是从观察到行动的映射,通常被认为是强化学习的一部分。
监督学习和强化学习之间的主要区别在于标签/奖励何时可用。强化学习标签/奖励通常会延迟。在监督学习中,标签/奖励必须与所有数据同时可用。在强化学习中,代理可能会在收到奖励之前做出一些动作。