我正在尝试建立一个回归模型,为此我有一个具有非常高基数的名义变量。我正在尝试获取列的分类嵌入。
输入:
df["nominal_column"]
输出:
the embeddings of the column.
我想单独使用嵌入列的操作,因为我需要将其作为传统回归模型的输入。有没有办法单独提取该输出。
PS我不是要代码,任何关于该方法的建议都会很棒。
我正在尝试建立一个回归模型,为此我有一个具有非常高基数的名义变量。我正在尝试获取列的分类嵌入。
输入:
df["nominal_column"]
输出:
the embeddings of the column.
我想单独使用嵌入列的操作,因为我需要将其作为传统回归模型的输入。有没有办法单独提取该输出。
PS我不是要代码,任何关于该方法的建议都会很棒。
据我了解,通常嵌入是用随机值初始化的。如果有预训练的嵌入,它们可以被加载,但是对于分类变量当然没有这样的东西。
因此,如果您只是创建一个分类特征的嵌入,您将得到一个向量表示,但它会有随机变量。所以首先你需要训练神经网络。训练完成后,您可以获取嵌入层的输出并将其用于回归模型。
但是你确定你需要嵌入吗?您可以表示编码或频率编码。