数据挖掘 - 序数整数变量与连续整数变量 - 吾爱随笔录

序数整数变量与连续整数变量

数据挖掘机器学习特征工程特征构造

2022-03-13 04:32:18

我正在研究泰坦尼克号数据集。我有一个特征Pclass，我理解它是一个具有值 1,2 和 3 的序数变量。我从特征Cabin创建了一个新特征Cabin_int，它本质上是分配给乘客的客舱数量。所以，它有 0、1、2、3 和 4 之类的值。现在这个新特性不是序数，它只是一个只取整数值的连续变量。

我的问题是，如果我在模型训练期间通过这两列（Pclass和Cabin_int），机器学习算法如何理解两者之间的区别？

如果需要做更多的特征工程，请告诉。

1个回答

有一条规则叫没有免费发射。这意味着没有一种学习算法可以解决所有问题。作为机器学习从业者，您应该决定何时以及如何使用哪种算法。假设您要识别人脸。这个问题是一个学习问题，如果你增加训练数据的数量，你会得到更好的结果。在这些情况下，强烈建议使用神经网络和深度网络。在这种情况下，使用它是不合逻辑的，non-linear SVM因为它的成本很高，而且您甚至可能得不到好的答案。原因是深度网络关心局部模式，但同时SVM考虑所有输入模式。实际上在你的情况下，我猜你的数据是分类的。对于分类数据，人们经常使用决策树。

举个例子，有一次我决定训练一个简单的 MLP 来区分输入模式是否在正确的位置，以解决 8-queen 问题。Genetic algorithm我使用并制作用于训练网络的数据来解决游戏。我带到网上的数据在某些现存的情况下是分类的。我使用了它，网络对于训练数据非常好，但是与训练数据相似的输入特征有点不同，召回率很差。我训练了一个决策树，我得到了更好的结果。

哪种算法取决于您的任务和输入功能。

其它你可能感兴趣的问题

上一篇如何验证 A/B 测试下一篇排名算法的性能评估