如何定义自定义重采样方法

数据挖掘 分类 定义 准确性 采样
2021-10-13 23:15:46

我正在使用实验设计来测试不同分类方法的稳健性,现在我正在寻找这种设计的正确定义。

我通过删除一些样本来创建完整数据集的不同子集。每个子集都是相对于其他子集独立创建的。然后,我对每个子集运行每种分类方法。最后,我估计每种方法的准确性,因为子集上的分类有多少与完整数据集上的分类一致。例如:

Classification-full     1    2    3    2    1    1    2

Classification-subset1  1    2         2    3    1   
Classification-subset2       2    3         1    1    2
...

Accuracy                1    1    1    1  0.5    1    1

这种方法有正确的名称吗?我认为它可能属于自举,但我不确定这一点。

1个回答

随机子采样似乎合适,自举更通用,但也正确。

以下是一些参考资料和同义词:http ://www.frank-dieterle.com/phd/2_4_3.html