使用马尔可夫链或神经网络对文本生成进行了很好的研究,但我不知道在子空间学习方面有任何关于词序列预测的工作。
将短语或句子视为时间序列等时间数据,可以将单词序列表示为张量,其中是语料库中存在的单词序列的集合,表示分词,是观察到的序列的最大长度 例如,对于一个短语,ws = ,则T(ws, ``sequence", 2) = 1word sequence prediction
对于不完整的张量,其中缺少条目 st 预测,然后可以使用分解后的重构张量根据观察到的词空间生成文本。
我的问题如下:
1)有没有使用张量分解或分解机器来生成单词序列的作品?
2) 子空间学习模型与那些生成模型有何不同,例如循环神经网络或信念网络?与其他已建立的方法相比,使用子空间方法的缺点是什么?
2)如何建立预测序列长度的阈值?例如,是否可以查看空间,并使用交叉验证来找到每个单词序列的阈值?
对上述任何问题的任何指示或答案都将受到高度赞赏。