使用张量分解生成文本

数据挖掘 预测建模 词嵌入 矩阵分解 文本生成 生成模型
2022-02-15 16:32:29

使用马尔可夫链或神经网络对文本生成进行了很好的研究,但我不知道在子空间学习方面有任何关于词序列预测的工作。

将短语或句子视为时间序列等时间数据,可以将单词序列表示为张量,其中是语料库中存在的单词序列的集合,表示分词,是观察到的序列的最大长度 例如,对于一个短语,ws = ,则T(ws, ``sequence", 2) = 1T=WS×W×KWSWKword sequence predictionT(ws,sequence",2)=1

对于不完整的张量,其中缺少条目 st 预测,然后可以使用分解后的重构张量根据观察到的词空间生成文本。

我的问题如下:

1)有没有使用张量分解或分解机器来生成单词序列的作品?

2) 子空间学习模型与那些生成模型有何不同,例如循环神经网络或信念网络?与其他已建立的方法相比,使用子空间方法的缺点是什么?

2)如何建立预测序列长度的阈值?例如,是否可以查看WSr×Kr空间,并使用交叉验证来找到每个单词序列的阈值?

对上述任何问题的任何指示或答案都将受到高度赞赏。

1个回答

张量分解作为一种独立的技术不适用于文本生成。分解无法对语言中的长期依赖关系进行建模。如果不对长期语言依赖进行建模,其结果将类似于低阶马尔可夫链。

张量分解可以用作更大的自然语言生成系统中的另一个信号,例如改进词嵌入