我试图找出使用data sampler
70/30 训练/测试拆分与直接使用test and score
小部件通过随机抽样进行此操作之间的区别。我的工作流程如下
这就是我test and score widget
在没有data sampler
这就是我的data sampler widget
样子
我在两者之间最后的混淆矩阵中看到了非常不同的结果。使用data sampler
,我得到一个比没有它更好的模型。但是,如果我直接尝试在 scikit-learn 中使用与 Orange 类似的超参数(例如求解器、C等)利用该train_test_split
函数,我的结果将更接近我在 Orange 中看到的而不使用.LogisticRegression
class_weights
data sampler
有人可以帮我弄清楚我错过了什么吗?
这两个小部件在我使用它们方面有什么区别?
70% in
DataSampler
不对应train_test_split
于 scikit-learn 中的函数train_size=0.7
吗?