我需要创建一个机器学习模型来预测一个结构是酒店还是公寓。我也有一个结构化的数据集:
ID | STATE | ROOM | BEDROOMS | COMFORT | CARD_ACCEPTED | CONGRESS | OUTPUT
0 | ITALY | 3 | 5 | Park, Pool, Disco | Visa, Mastercard | Number rooms 3, Min capacity 3, Max Capacity 110 | Hotel
1 | USA | 2 | 2 | Park, Pool | | | Apartment
2 | ARG | 1 | 4 | | Visa | Number rooms 1, Min capacity 3, Max Capacity 20 | Hotel
我想在上面测试不同的机器学习方法,所以我想做的第一件事就是预处理数据。我的想法是将 COMFORT 和 CARD_ACCEPTED 列拆分为 COMFORT.Park、COMFORT.Pool 等,这样我就可以将它们转换为数字而不是分类变量。我的问题与 CONGRESS 列有关,因为它的特定数据与 COMFORT 和 CARD_ACCEPTED 的情况不太吻合。我应该对其应用什么标准化方法?