假设我想预测美国和加拿大的人在一个月内购买产品 A 的可能性有多大。基本上,这是一个二元分类问题。
假设我有 200 万行购买/未购买产品(标签)的人的历史数据。一百万行数据来自美国,其他来自加拿大。
我可以通过以下两种方式构建机器学习模型:
- 构建一个包含 200 万行数据的模型。一个包含所有数据的模型。
- 模型本地化:使用美国数据构建模型。使用加拿大数据构建另一个模型。
直觉上,在我看来,选项 1 的性能总是比 2 好。因为一个模型中会有更多的数据。但在实践中,选项 2 似乎总是比选项 1 执行得更好。
我的问题是什么时候应该使用选项 2 而不是选项 1?如何做出决定?