数据挖掘 - 具有大量类别的多类分类 - 吾爱随笔录

我正在制作一个推荐系统（有点），我必须推荐用户下次购买时最有可能购买的商品。不管他是否已经买了这个项目。

鉴于此，我将此问题视为具有 4000 个类别（用户可以购买的不同商品的数量）的多类分类问题。

在 Wikipedia 中搜索，我找到了这个链接，并决定使用One vs -rest方法。因此，如果用户之前购买了每个项目，我决定使用协变量标志为每个项目训练一个随机森林（所以我有大约 4000 个协变量）。然后我会决定一个规则来决定推荐的项目（比如最有可能被购买或最大提升的那个。）

我的问题是训练时间太长（每个项目 5 到 10 分钟）：

> 5*4000
[1] 20000
> 20000/60
[1] 333.3333
> 333.3333/24
[1] 13.88889

因此，在最好的情况下，需要 2 周的时间来训练。

我想知道我使用的方法是否正确，以及是否有另一种更快的方法来实现这一点。