抱歉标题含糊不清;我会解释我的意思。我正在做Kaggle Titanic 初学者教程。您感兴趣的标签是您想要在测试数据中预测的“存活”率(0 或 1)。
我做的第一件事是绘制每个特征的平均存活率,对于每个特征,取该特征值的平均存活率。例如,对于“性”功能,您可以查看男性和女性的平均存活率,这为您提供了可以使用的良好信息。
对于像“Fare”和“Age”这样更连续的特征,以同样的方式取平均值是没有意义的,因为不一定有很多人具有相同的确切年龄。所以,我做了“banding”,我做了一个类似直方图的事情,说从 0 到 10 的每个人都是一个波段,10-20 是另一个波段,等等,这些波段现在是可以很好平均的分类特征(这是一个很好的举动,对吧?至少在最初?)。
这就是我得到的:
这就是背景。现在,这是我的问题。我想从一个简单的模型开始,比如线性回归。对于某些功能,例如 Sex 或 Pclass,很明显线性模型可以很好地拟合它。然而,对于像 AgeBand 这样的一些人来说,增加 AgeBand 并没有真正明确、单调的趋势……但不同频段之间的存活率肯定存在差异!
所以你可以做的是,按照存活率对那些“非单调”的特征进行排序,所以它是单调的,然后将它们用于线性回归。这是个好主意吗?
例如,这是按存活率排序的 AgeBand 特征:

