我试图包含一个变量,如“帐号”,它是一个“ID”,作为逻辑回归模型的预测变量。事实上,我的数据集中有几列是“ID”,但对于预测结果很重要。例如,如果一个帐号与一个欺诈性电话号码相关联,我希望我的模型能够捕捉到这种关系。将这些变量转换为分类变量并不是一个解决方案,因为每列中有超过 2000 万个。我已经完成了词嵌入并将每个 ID 转换为向量空间,然后应用 PCA 来减小空间的大小,并将每个 ID 替换为一个向量和一个 ID 列,这些列现在是连续变量。然而,当 ID 的数量超过一百万时,这个想法就会失败。如果您指出与我的问题类似的示例/研究,我将不胜感激。如果我需要更详细地解释问题,请告诉我。我在 python 中使用 gensim 库进行词嵌入,并使用 amazon ML 来训练和测试模型。
更新:最近 tensorflow 开发人员添加了一个名为“散列”和“嵌入”的新功能。