数据挖掘 - 使用张量分解生成文本 - 吾爱随笔录

使用马尔可夫链或神经网络对文本生成进行了很好的研究，但我不知道在子空间学习方面有任何关于词序列预测的工作。

将短语或句子视为时间序列等时间数据，可以将单词序列表示为张量，其中是语料库中存在的单词序列的集合，表示分词，是观察到的序列的最大长度例如，对于一个短语，ws = ，则 $T = WS \times W \times K$ $WS$ $W$ $K$ word sequence prediction $T(ws, ``sequence", 2) = 1$

对于不完整的张量，其中缺少条目 st 预测，然后可以使用分解后的重构张量根据观察到的词空间生成文本。

我的问题如下：

1）有没有使用张量分解或分解机器来生成单词序列的作品？

2) 子空间学习模型与那些生成模型有何不同，例如循环神经网络或信念网络？与其他已建立的方法相比，使用子空间方法的缺点是什么？

2）如何建立预测序列长度的阈值？例如，是否可以查看 $WS_r \times K_r$ 空间，并使用交叉验证来找到每个单词序列的阈值？

对上述任何问题的任何指示或答案都将受到高度赞赏。