我正在研究泰坦尼克号数据集。我有一个特征Pclass,我理解它是一个具有值 1,2 和 3 的序数变量。我从特征Cabin创建了一个新特征Cabin_int,它本质上是分配给乘客的客舱数量。所以,它有 0、1、2、3 和 4 之类的值。现在这个新特性不是序数,它只是一个只取整数值的连续变量。
我的问题是,如果我在模型训练期间通过这两列(Pclass和Cabin_int),机器学习算法如何理解两者之间的区别?
如果需要做更多的特征工程,请告诉。
我正在研究泰坦尼克号数据集。我有一个特征Pclass,我理解它是一个具有值 1,2 和 3 的序数变量。我从特征Cabin创建了一个新特征Cabin_int,它本质上是分配给乘客的客舱数量。所以,它有 0、1、2、3 和 4 之类的值。现在这个新特性不是序数,它只是一个只取整数值的连续变量。
我的问题是,如果我在模型训练期间通过这两列(Pclass和Cabin_int),机器学习算法如何理解两者之间的区别?
如果需要做更多的特征工程,请告诉。
有一条规则叫没有免费发射。这意味着没有一种学习算法可以解决所有问题。作为机器学习从业者,您应该决定何时以及如何使用哪种算法。假设您要识别人脸。这个问题是一个学习问题,如果你增加训练数据的数量,你会得到更好的结果。在这些情况下,强烈建议使用神经网络和深度网络。在这种情况下,使用它是不合逻辑的,non-linear SVM因为它的成本很高,而且您甚至可能得不到好的答案。原因是深度网络关心局部模式,但同时SVM考虑所有输入模式。实际上在你的情况下,我猜你的数据是分类的。对于分类数据,人们经常使用决策树。
举个例子,有一次我决定训练一个简单的 MLP 来区分输入模式是否在正确的位置,以解决 8-queen 问题。Genetic algorithm我使用并制作用于训练网络的数据来解决游戏。我带到网上的数据在某些现存的情况下是分类的。我使用了它,网络对于训练数据非常好,但是与训练数据相似的输入特征有点不同,召回率很差。我训练了一个决策树,我得到了更好的结果。
哪种算法取决于您的任务和输入功能。