数据挖掘 - What's Cook Kaggle - 改进模型 - 吾爱随笔录

我正在参加 Kaggle 比赛“烹饪什么”。我们的目标是根据某些成分了解我们有哪些美食。所以这是一个多类分类问题。我有一个现有的模型，我一直在尝试改进它 2 周，但没有结果。我正在使用 scikit learn，我现有的模型是

pipelineLR = Pipeline([
('vect', CountVectorizer(max_df=0.75)),
('lr', LogisticRegression(C=0.4,solver='lbfgs',multi_class='ovr',fit_intercept=True,warm_start=True)),
])

这真的很基本。但是这个数据集的问题是我们有不平衡的数据。由于 CountVectorizer，我们还有一个巨大的稀疏矩阵。我尝试了很多不同的模型，有和没有 TF-IDF，这个模型是我能得到的最好的。我也有混淆矩阵、分类报告和学习曲线。

我能注意到的是它具有高方差。我想我可以通过预处理数据来做一些事情，但我真的被卡住了。我不知道我的模型是否足以改进，或者我是否必须找到一种全新的方法。另外，我可以从分类报告中得到的是，该模型对于我有大量数据的类运行良好，但对于数据较少的类，它会犯很多错误。

我对数据科学很陌生，我正在努力自学。但我认为我真的需要对这个问题有另一种看法，因为我无法设法提高我的分数。