我正在建模一个连续变量(例如,每个客户的平均数量)。该变量具有一些不对称分布:例如 Gamma/Tweedie/ 等。
假设我在构建模型后无法进行交叉验证:我所能做的就是从初始数据集中选择一次(80%/20%)训练/测试子集,然后使用训练集训练模型。
问题是当使用伪随机变量生成 80% 时,我的训练测试可能与原始数据集不正确相似。另一个问题是训练集和测试集不能彼此相似。
有谁知道如何正确地将数据拆分为训练/测试,以便训练/测试的每个部分彼此相似并进行初始分布?
我知道通常我应该在选择模型参数时使用交叉验证来克服这类问题,但是没有它有什么可以做的吗?我找到了一些关于 KLIEP 算法的信息,但我不确定它是否适用于上述情况。
我将不胜感激任何评论/阅读链接。