从序列构建自己的嵌入

数据挖掘 深度学习 nlp 词嵌入 嵌入
2022-03-13 18:59:21

我有 100 个单词序列(即完成任务的动作)。每个序列包含大约 350 个动作(115 个独特的动作,但不是每个序列中都使用所有动作。有些动作可能会重复)。数据集如下所示:

Datapoint 1    Datapoint 2 .............  Datapoint 100

Add wall        Add wall                   Add window
Edit wall       Remove Roof                 Add wall
Add wall        Add window                  Edit wall
.......         .........                   .........
........        .........                   .........
Remove door     Add door                    Remove door

我的目标是预测下一个设计动作。然而,当我在 LSTM 模型中使用这些序列时,预测准确率并没有那么高(35%)。出于这个原因,我在考虑是否可以使用任何嵌入模型值得一提的是,序列中的动作是相关的。这意味着每个动作与其先前的动作和以后的动作都有一定的关系。如何使用嵌入来表示这些关系?简而言之,我想基于序列构建自己的嵌入。如果有人帮助我提供一些参考资料,论文,将不胜感激。

1个回答

几乎任何嵌入方法都可以学习这些离散动作之间的关系。

例如,Python 的 gensim 包有一个 word2vec 实现,它支持在您自己的模型上进行训练

您将编写创建词对(例如,“添加墙”或“编辑墙”)作为标记的标记器。传统的分词器将在空格上拆分。