机器算法验证 - 相关案例和交叉验证 - 吾爱随笔录

我发帖是为了询问是否有一种交叉验证方法可以对已经用 R 语言很好地实现的相关数据进行交叉验证。对这种方法的一些快速搜索显示了一些技术，如 h-block 交叉验证、hv-block 交叉验证和 leave-one-block-out (LOBO) 交叉验证，但据我所知，还没有在 R 上实现。

我的问题是一个简单的分类问题（有 295 个负例和 247 个正例），我需要一种 CV 技术来处理包含几个定义明确的可变大小块的数据集，这些块可能包含正例和负例。在每个块内，60 个感兴趣的预测变量中的一些（但不是全部）可能在案例之间高度相关。

绕过该问题的一种尝试是从每个块中随机选择一个案例，然后他们训练模型。不幸的是，这进一步将我的数据集减少到只有 151 个负数，而 113 个正数使模型的结果高度可变。此外，无论我做什么，我都会使用 adaboost 算法得到一些奇怪的 LOOCV 和 k 倍 CV 测试错误，这些错误低于训练错误。

我愿意接受各种建议。

编辑：问题是指在同一基因（块）内彼此接近的 SNV 突变。每个案例之间的接近度可以在一维（距离的核苷酸）中精确测量。基于周围环境的预测器，如序列保守，在相邻的突变中往往非常相似。