如何进一步提高 kaggle Titanic 提交准确率?

数据挖掘 机器学习 分类 初学者
2021-09-26 09:43:06

我正在研究泰坦尼克号数据集。到目前为止,我使用逻辑回归和随机森林的软多数投票获得了 0.78 分。至于功能,我使用了 Pclass、Age、SibSp、Parch、Fare、Sex、Embarked。

我的问题是如何进一步提高这个分类问题的分数?

我尝试过的一件事是为多数投票添加更多分类器,但这无济于事,甚至值得结果。我如何理解这种有价值的效果?

感谢您的洞察力。

2个回答

大问题。

好的,如果我是你,我会看一些东西。

  1. 你有没有尝试过任何特征工程?(听起来你刚刚使用了训练集中的特征,但我不能 100%)
  2. 随机森林应该做得很好,但也许也可以试试 xgboost?它在 Kaggle 上的一切都非常好。如果您正在考虑堆叠/集成,SVM 也值得一试。
  3. 查看有关本次比赛的一些教程。有数百个,其中大多数都很棒。

链接:

R#1(我最喜欢的)

R#2

蟒蛇#1

蟒蛇#2

...希望这会有所帮助

好的,我目前在比赛中处于 0.81340。我会清除某些事情。我建议您在使用集成方法之前尝试特征工程。如前所述,实际上有相当不错的教程。实际上,仅依靠特征工程和十倍交叉验证的 RandomForest,一个人的得分至少可以达到 0.82。您需要考虑以下几点:

  • 看看时代,它还给了你什么其他信息。
  • SibSp 和 Parch 真的代表不同的东西吗?
  • 你能从乘客的名字中得到一些东西吗?

一切顺利。
干杯。