我试图找出使用data sampler70/30 训练/测试拆分与直接使用test and score小部件通过随机抽样进行此操作之间的区别。我的工作流程如下
这就是我test and score widget在没有data sampler
这就是我的data sampler widget样子
我在两者之间最后的混淆矩阵中看到了非常不同的结果。使用data sampler,我得到一个比没有它更好的模型。但是,如果我直接尝试在 scikit-learn 中使用与 Orange 类似的超参数(例如求解器、C等)利用该train_test_split函数,我的结果将更接近我在 Orange 中看到的而不使用.LogisticRegressionclass_weightsdata sampler
有人可以帮我弄清楚我错过了什么吗?
这两个小部件在我使用它们方面有什么区别?
70% in
DataSampler不对应train_test_split于 scikit-learn 中的函数train_size=0.7吗?



