我是机器学习的新手。我手头的任务是根据城市、州、操作系统版本、操作系统系列、设备、浏览器系列、浏览器版本等用户信息预测点击概率。我被建议尝试 logit,因为 logit 似乎是 MS 和 Google正在使用。我有一些关于逻辑回归的问题:
点击和非点击是一个非常非常不平衡的类别,简单的 GLM 预测看起来并不好。我怎样才能使数据更好地与 GLM 一起使用?
我拥有的所有变量都是分类变量,设备和城市之类的变量可能很多。此外,某些设备或某些城市的出现频率可能非常低。如何处理分类变量的这种分布?
我们得到的变量之一是设备 ID。这是一个非常独特的功能,可以转化为用户的身份。如何在 logit 中使用它,还是应该根据用户身份在完全不同的模型中使用它?