我们正在尝试使用机器学习算法建立一个预测模型。
我有一个用例,其中输入数据的维度非常高。每个样本点有 20000 个特征。
我们有一个不错的训练样本集,大约有 100 万个训练样本,如果有必要,我们可以获取更多,比如 2 或 300 万个。
我们对速度不是很敏感,它不像推荐系统需要在一秒钟内做出响应。该应用程序允许我们花几分钟时间进行一次预测。尽管如此,我们希望该算法在未来能够以并行模式运行。
鉴于上述描述,你会建议什么样的算法?
我们最担心的是过度拟合,有这么多的特征,似乎我们注定要过度拟合。
我们试图单独做最近邻线的事情,但是有这么多特征,计算距离听起来像是一项不可能完成的任务。也许我们应该先做 PCA 来做降维?
欢迎任何评论!