如何处理混合类型的特征?

数据挖掘 机器学习 数据集 特征工程
2022-02-23 08:35:09

我正在处理具有 2000 多个特征的数据集。大多数特征都包含数值和分类特征。例如,特征中表示用户在当前地址中居住了多久,该值可以是数字或某些字母,表示由于某些原因无法获取该值。

我不知道如何处理这些功能。如果它们只是纯数值或分类值,事情会容易得多。但由于它们是混合的,我真的很困惑。谁能给我一些建议?

更新:我可能没有明确表示它不是一个包含数字特征和分类特征的数据集。我的意思是在一个特征中,既有数值又有分类值。

例如:(这里的M、C、T表示由于不同的原因,找不到确切的值)

总收入

3000

5000

8000

C

4000

2个回答

最好的办法是拥有领域知识并了解此功能如何影响目标以及对其进行编码的最佳方式是什么:

第一种方式:将它们都视为具有高基数的分类特征。

第二种方式:将它们分成两列,一列分类,一列数字。然后分别对待。

在这种情况下,如果没有领域知识,我想不出更好的办法。回答这个问题会有所帮助:这个数字真的是一个数字吗?为什么我可以在同一列中有数字和字符串?这些信息将如何帮助我的模型?

首先 - 您应该决定是否对这些 CHAR 的含义有任何线索。

比方说,答案是“不”(我对此表示怀疑)
那么这与丢失的记录没有什么不同。因此,您可以尝试最好的插补技术。


如果我们有基于领域知识的线索, 例如 C 表示加利福尼亚人口失踪
然后你可以相应地尝试一个逻辑。

尝试使用这些值绘制其他特征/目标并观察模式以获得任何可用的线索。

最后,您可以尝试使用基于目标的编码或仅将它们保持在一维中的技术对这些值进行编码。Ref-I Ref-II