序数整数变量与连续整数变量

数据挖掘 机器学习 特征工程 特征构造
2022-03-13 04:32:18

我正在研究泰坦尼克号数据集。我有一个特征Pclass,我理解它是一个具有值 1,2 和 3 的序数变量。我从特征Cabin创建了一个新特征Cabin_int,它本质上是分配给乘客的客舱数量。所以,它有 0、1、2、3 和 4 之类的值。现在这个新特性不是序数,它只是一个只取整数值的连续变量。

我的问题是,如果我在模型训练期间通过这两列(PclassCabin_int),机器学习算法如何理解两者之间的区别?

如果需要做更多的特征工程,请告诉。

1个回答

有一条规则叫没有免费发射这意味着没有一种学习算法可以解决所有问题。作为机器学习从业者,您应该决定何时以及如何使用哪种算法。假设您要识别人脸。这个问题是一个学习问题,如果你增加训练数据的数量,你会得到更好的结果。在这些情况下,强烈建议使用神经网络和深度网络。在这种情况下,使用它是不合逻辑的,non-linear SVM因为它的成本很高,而且您甚至可能得不到好的答案。原因是深度网络关心局部模式,但同时SVM考虑所有输入模式。实际上在你的情况下,我猜你的数据是分类的。对于分类数据,人们经常使用决策树。

举个例子,有一次我决定训练一个简单的 MLP 来区分输入模式是否在正确的位置,以解决 8-queen 问题。Genetic algorithm我使用并制作用于训练网络的数据来解决游戏。我带到网上的数据在某些现存的情况下是分类的。我使用了它,网络对于训练数据非常好,但是与训练数据相似的输入特征有点不同,召回率很差。我训练了一个决策树,我得到了更好的结果。

哪种算法取决于您的任务和输入功能。