我目前正在写我的硕士论文,并将应用Deep-SARSA作为我的 DRL 算法。问题是没有可用的数据集,我想我应该以某种方式生成它们。如 [ 1 ]中所述,数据集生成似乎是这个特定主题的一个共同特征
当数据集不可用时,通过经验进行学习。
我想知道当环境不像井字游戏或迷宫问题那么简单时如何生成数据集以及经验意味着什么。
PS:环境由15个移动用户和3个边缘服务器组成,每个边缘服务器覆盖多个移动用户。每个移动用户可能会在每个时间步开始时生成计算量大的任务,并且可以自己处理任务或请求其关联的边缘服务器进行处理。如果关联的边缘服务器由于某些原因无法处理,它会请求附近的边缘服务器帮助它。优化问题(奖励)是减少时间和能源消耗(多目标优化)。每个服务器都有一个 DRL 代理来做出卸载决策。
我非常感谢您的建议和帮助。