全部。目前,我正在使用 1990 年人口普查作为数据集(与 Aurélien Géron 在他的书中使用的相同)在回归器中工作以预测房屋中值。
到目前为止,我最好的结果是训练集的得分约为 0.96,带有 bagging 回归器的测试集得分约为 0.80。这是我一直在做的事情:
precisao_treino = clf.score(dados_treino_feat,dados_treino_targ) #training score
precisao_valid = clf.score(dados_valid_feat,dados_valid_targ) #test score
(0.9698880465469455, 0.8087685894971024)
但这是我感到困惑的地方。非常高的训练分数表明我的模型可能存在过度拟合。但是,考试成绩却保持了相对较好的成绩。所以我不知道我的模型是否过拟合或预测是否良好。有人可以向我解释这是一个坏模型还是好模型?
这是我的最终数据集的样子,使用单热编码:
['longitude',
'latitude',
'housing_median_age',
'total_rooms',
'total_bedrooms',
'population',
'households',
'median_income',
'median_house_value',
'<1H OCEAN',
'INLAND',
'ISLAND',
'NEAR BAY',
'NEAR OCEAN']
我去除异常值的解决方案:
df = df[(np.abs(zscore(df)) < 6).all(axis=1)]
我的模型:
clf = ensemble.BaggingRegressor(n_estimators=20)