我正在尝试使用 XGBOOST 对时间序列数据进行二进制分类,并为不同的客户提供不同货币的销售变量。不同的货币(基本上是不同范围的变量)会对模型产生重大影响吗?我能想到的两个解决方案是:
- 以单一货币对销售变量的所有行进行转换。
- 添加销售/货币区域作为分类变量。
第二个解决方案是否有效,或者我应该坚持第一个解决方案。
我正在尝试使用 XGBOOST 对时间序列数据进行二进制分类,并为不同的客户提供不同货币的销售变量。不同的货币(基本上是不同范围的变量)会对模型产生重大影响吗?我能想到的两个解决方案是:
第二个解决方案是否有效,或者我应该坚持第一个解决方案。
第一个解决方案是有效的。您需要为每个给定特征的所有行保持相同的单位。但是对于货币,您应该注意可能取决于数据收集日期的转换率。
对于第二种解决方案,我不太确定您的最终应用程序,但如果您试图将货币类型的影响纳入模型预测中,您可以使用它。但是,如果您提议将其作为第一个解决方案的替代方案,您的模型将不太可能推断各种货币类型之间的兑换率。