混合数据类型列的特征工程

数据挖掘 数据清理 特征提取
2022-02-25 03:23:23

我有一个数据集,我必须在其中预测建筑物的价格。在许多功能中,有一个称为可用性的功能,它有两个类型值,例如:

"Ready To Move" and a date (e.g. "20-Jan", "18-May", etc.)

例如:

Availability           Price
------------           ----- 
Ready To Move           55
18-Apr                  38

您将如何设计此列以找到它与价格的关系并得出其他结论。

2个回答

你有几个选择。其中尝试这些:

PS:请注意,Spearman 或 Kendall 等级相关也可以应用于您的分类变量,因为它们是有序的(日期)。

您可以创建一个名为“建筑物可用天数”的新列(值将是(1 月 20 日/4 月 18 日)-当前日期)。