Orange 中 DataSampler 和 TestAndScore 小部件之间的区别

数据挖掘 橙色3
2022-02-11 11:32:56

我试图找出使用data sampler70/30 训练/测试拆分与直接使用test and score小部件通过随机抽样进行此操作之间的区别。我的工作流程如下

在此处输入图像描述

这就是我test and score widget在没有data sampler

在此处输入图像描述

这就是我的data sampler widget样子

在此处输入图像描述

我在两者之间最后的混淆矩阵中看到了非常不同的结果。使用data sampler,我得到一个比没有它更好的模型。但是,如果我直接尝试在 scikit-learn 中使用与 Orange 类似的超参数(例如求解器、C等)利用该train_test_split函数,我的结果将更接近我在 Orange 中看到的而不使用.LogisticRegressionclass_weightsdata sampler

  • 有人可以帮我弄清楚我错过了什么吗?

  • 这两个小部件在我使用它们方面有什么区别?

  • 70% inDataSampler不对应train_test_split于 scikit-learn 中的函数train_size=0.7吗?

1个回答

找出问题所在,我错误地将“数据采样器”和“测试和评分”小部件之间的通道配置为仅使用训练数据进行测试。它实际上应该以这种方式配置-->

在此处输入图像描述

早些时候,我将“数据采样器”中的“数据样本”映射到“测试和分数”小部件中的“数据”和“测试数据”。“剩余数据”需要映射到“测试数据”,因为这是用于测试的“样本外”数据集。