我有一个数据集,其中有数字、分类和循环(月-季度)变量。
我将运行一个回归模型,但我也可能使用随机森林、XGBoost 等。所以我将预处理我的数据。在预处理阶段,我将循环变量转换为 sin-cos 表示。两列现在都分散在 -1 和 1 之间。
我将对分类变量进行一次热编码,这是肯定的。
但我对数值转换有一些疑问:
1)一般来说,我可以通过标准化转换一些列,通过规范化转换一些列吗?或者我应该选择一种方法并申请所有数字列?
2)它也类似于1。现在我有sin-cos列,已经从循环变量转换而来。
我是否应该进一步对该列应用数值转换,例如如果我将所有数值变量归一化在 0-1 之间,我是否也会将此转换应用于 sin-cos 列?
最好的方法是将 -1 和 1 之间的每个数字列标准化?
谢谢