我正在构建随机森林的不同配置,以研究井设计变量和位置对美国给定区域内页岩油井第一年产量的影响。在不同的模型配置中,我以不同的方式控制位置,以显示当模型的空间分辨率不足时,井设计变量的影响可能会发生偏差。在这里,位置充当了地质特性/储层质量的代表。
我有一个约 4500 口井的数据集,有 6 个变量。响应是第一年的产量,预测变量是除经度和纬度之外的三个不同的井设计变量。
在处理空间数据时,我一直在研究和思考数据分区的主题。例如,在 Lovelace 等人的“Geocomputation with R”这一章中。( https://geocompr.robinlovelace.net/spatial-cv.html ),他们强调了空间交叉验证的重要性:“随机分割空间数据会导致训练点在空间中与测试点相邻。由于空间在这种情况下,自相关、测试和训练数据集不会是独立的,结果是 CV 无法检测到可能的过度拟合。空间 CV 缓解了这个问题,是本章的中心主题。
...并显示一个示例,说明如果空间数据被随机拆分(这是分类问题的 AUC 差异),结果可能如何产生正偏差:
关键是由于空间自相关(近处的事物比远处的事物更相关),如果不考虑观察值的接近性,您最终会在训练集中得到一些与测试集中的观察值非常相似的观察值拆分数据。这可能会导致集合之间的“信息泄漏”。
我的问题是,这种信息泄露一定会造成问题吗?我认为这和观察的相似性也可以代表手头的问题,因此使性能评估更能代表模型的实际应用。我知道,如果应该将空间上不相交的测试集用于预测一个全新的和遥远的区域,它会对您的模型产生更具代表性的性能评估。但是,如果您想评估模型对近距和远距位置混合的预测性能,随机分割不是更合理吗?
在这里希望大家多多指教,谢谢!
编辑:在 Twitter 上与上述书籍的作者联系后,建议我查看 Hanna Meyer 的以下讲座:https ://www.youtube.com/watch?v=mkHlmYEzsVQ 。她区分了“数据再现”和“数据预测”(视频中大约 16:40)。这是我最初写这篇文章时想到的事情;我并没有真正应用这些模型进行预测,而是使用预测模型作为调查影响井生产力的因素的工具。看完视频,我更加确信这个应用更像是“数据再现”,随机分区似乎还可以,而不是“数据预测”。