在阅读了一些材料后,我发现定义训练集和测试集的选项很少:
- 只是分裂,没有变化。
- 列车组的累积/移动窗口。
- 在测试集和训练集之间留一个相对较小的(升温)时间段,然后再次使用窗口(包括升温时间段)。
应用机器学习算法和参数估计的最准确方法应该是什么?
在阅读了一些材料后,我发现定义训练集和测试集的选项很少:
应用机器学习算法和参数估计的最准确方法应该是什么?
如果您仍在寻找有关金融时间序列和机器学习的见解,您可能需要查看来自Journal of Economic Perspectives的这篇文章,该文章对与经济学/金融相关的各种ML方法进行了很好的概述。
从本质上讲,您遇到的主要问题是大多数传统的机器学习技术都处理横截面数据,“其中独立分布的数据是一个合理的假设”(引自上述文章)。但是,由于使用金融时间序列,您大体上无法做出这样的假设,因此您最好采用与“训练/测试集拆分”完全不同的方法。你最好的选择——正如那篇文章中提到的(说真的,这真的很好)——可能是阅读贝叶斯结构时间序列(BFTS)(在那篇文章中简要提到你现在应该阅读并更详细地描述在这里,好吧,我没有第三个链接的代表......)。
现在,如果您只是想进行一些普通的时间序列估计,您可以选择使用样本中最低的RMSE方法选择模型。但是,这可能会导致您丧失所有“机器学习”名称删除权限。只是一个警告...
祝你好运!
通常,交叉验证是通过将数据拆分为训练和测试数据集来评估模型的方法之一。留一法交叉验证拆分数据集,将 n 个数据点称为 (n-1) 用于训练数据并在第 n 个数据点上进行测试。重复此过程,直到每个数据点都用作测试数据点。这确保了分割训练数据的公平性和模型的严格评估。