我有一个包含分类和浮点数据类型的 csv。我想做以下事情:
pd.unique()对于每个分类列,我将使用 pandas 来计算列中存在的唯一值 ( )。说u_l一列- 我将使用
len(u_l)来决定我用于我想要嵌入的特定分类列的嵌入维度(这一步是我不能使用 tensorflow_transform 的原因) - 我想创建一些可以将
category (token)值映射到嵌入索引的有状态节点,因此随后我可以从我在步骤 2 中创建的嵌入矩阵中查找嵌入
我现在不知道该怎么做。我可以看到一个非常不雅的解决方案是使用 tensorflow_datasets:
encoder = tfds.features.text.TokenTextEncoder(u_l,decode_token_separator=' ')c_l使用空格分隔符 ( )连接整个列(c_l现在是一个字符串),然后使用encoder.encode(c_l)
这是一个非常基本的事情,我认为 tensorflow 可以相对容易地完成。请指导我找到正确的解决方案