预处理数据的最佳方法

数据挖掘 数据集 数据 大数据 预处理
2022-02-13 11:41:36

我需要创建一个机器学习模型来预测一个结构是酒店还是公寓。我也有一个结构化的数据集:

ID | STATE  | ROOM | BEDROOMS |       COMFORT      |   CARD_ACCEPTED  |                   CONGRESS                          | OUTPUT
0  | ITALY  |   3  |    5     |  Park, Pool, Disco | Visa, Mastercard |  Number rooms 3, Min capacity 3, Max Capacity 110   | Hotel
1  | USA    |   2  |    2     |  Park, Pool        |                  |                                                     | Apartment
2  | ARG    |   1  |    4     |                    | Visa             |  Number rooms 1, Min capacity 3, Max Capacity 20    | Hotel

我想在上面测试不同的机器学习方法,所以我想做的第一件事就是预处理数据。我的想法是将 COMFORT 和 CARD_ACCEPTED 列拆分为 COMFORT.Park、COMFORT.Pool 等,这样我就可以将它们转换为数字而不是分类变量。我的问题与 CONGRESS 列有关,因为它的特定数据与 COMFORT 和 CARD_ACCEPTED 的情况不太吻合。我应该对其应用什么标准化方法?

1个回答

我会一次性编码STATE,COMFORTCARD_ACCEPTED, 并且我会将看起来是字符串的内容解析CONGRESS为三列:NUMROOMS, MINCAP, MAXCAP

对于所有的 one-hot 列,您不需要进行规范化。对于所有数值,您可以参考此堆栈问题