提取分类变量的嵌入

数据挖掘 喀拉斯 张量流 词嵌入
2022-03-05 02:36:12

我正在尝试建立一个回归模型,为此我有一个具有非常高基数的名义变量。我正在尝试获取列的分类嵌入。

输入:

df["nominal_column"]

输出:

the embeddings of the column.

我想单独使用嵌入列的操作,因为我需要将其作为传统回归模型的输入。有没有办法单独提取该输出。

PS我不是要代码,任何关于该方法的建议都会很棒。

1个回答

据我了解,通常嵌入是用随机值初始化的。如果有预训练的嵌入,它们可以被加载,但是对于分类变量当然没有这样的东西。

因此,如果您只是创建一个分类特征的嵌入,您将得到一个向量表示,但它会有随机变量。所以首先你需要训练神经网络。训练完成后,您可以获取嵌入层的输出并将其用于回归模型。

但是你确定你需要嵌入吗?您可以表示编码或频率编码。