我正在处理具有 2000 多个特征的数据集。大多数特征都包含数值和分类特征。例如,特征中表示用户在当前地址中居住了多久,该值可以是数字或某些字母,表示由于某些原因无法获取该值。
我不知道如何处理这些功能。如果它们只是纯数值或分类值,事情会容易得多。但由于它们是混合的,我真的很困惑。谁能给我一些建议?
更新:我可能没有明确表示它不是一个包含数字特征和分类特征的数据集。我的意思是在一个特征中,既有数值又有分类值。
例如:(这里的M、C、T表示由于不同的原因,找不到确切的值)
总收入
3000
5000
米
8000
C
4000
吨