我有一个棘手的问题,需要一些建议:
假设我有一个可变长度序列的集合,其中许多是独一无二的——想象一下国际象棋游戏的动作,例如
- d4 Nf6
- c4 g6
- NC3 Bg7
- e4 d6
- Nf3 OO
- Be2 c5
- OO Bg4
...
对于这个集合中的每个项目,我都有另一个由人类生成的描述集合(想想评论 - comment_1: "cool game", comment_2: "awesome sacrifice"
)
目标是挖掘评论和序列之间的关联,用人类可读的标签标记序列以进行搜索。
我已经考虑过用于标签生成+聚类/分组序列的主题建模,但我不知道如何做类似游戏聚类之类的事情。如果有帮助,我有数百万个序列示例。知道如何测量这样的序列之间的距离/相似性吗?某种嵌入?我考虑过尝试 word2vec / doc2vec 方法,但尚未测试。
理想情况下,我可以输入一个看不见的序列,并为此序列建议标签/人类可读的描述。