数据挖掘 - 预处理数据的最佳方法 - 吾爱随笔录

我需要创建一个机器学习模型来预测一个结构是酒店还是公寓。我也有一个结构化的数据集：

ID | STATE  | ROOM | BEDROOMS |       COMFORT      |   CARD_ACCEPTED  |                   CONGRESS                          | OUTPUT
0  | ITALY  |   3  |    5     |  Park, Pool, Disco | Visa, Mastercard |  Number rooms 3, Min capacity 3, Max Capacity 110   | Hotel
1  | USA    |   2  |    2     |  Park, Pool        |                  |                                                     | Apartment
2  | ARG    |   1  |    4     |                    | Visa             |  Number rooms 1, Min capacity 3, Max Capacity 20    | Hotel

我想在上面测试不同的机器学习方法，所以我想做的第一件事就是预处理数据。我的想法是将 COMFORT 和 CARD_ACCEPTED 列拆分为 COMFORT.Park、COMFORT.Pool 等，这样我就可以将它们转换为数字而不是分类变量。我的问题与 CONGRESS 列有关，因为它的特定数据与 COMFORT 和 CARD_ACCEPTED 的情况不太吻合。我应该对其应用什么标准化方法？