TL;博士:
这样的事情可行吗?(我知道除非经过尝试,否则在数据科学中没有什么可以肯定地说,但值得一试吗?)
是的
我应该将什么样的特征输入分类器?我已经知道词频分布(TF-IDF)、句子位置、共现统计,但是这些就足够了吗?我应该考虑哪些附加功能?还是我应该考虑直接输入词向量?
输入词向量。深度学习可以找出好的特征,如 tf-idf、共现等。
更长的版本:
输入:
使用 Word2Vec 或 Glove 等词嵌入算法将所有词转换为词向量。这通常是一个好主意,因为这允许您以更好的语义(狗、猫、牛等将接近)和句法(11 月、12 月等将接近)意义来表示单词。
(使用 tf-idf 作为特征对我不起作用。我用它来监督神经网络的提取摘要。)
如何管理输入:
这在很大程度上取决于您的数据如何。(请让我知道哪个数据集)我假设您有类似 [sentence1, sentence2,...] 作为输入和类似 [True, False, ...] 的输出,这意味着 send1 在摘要中,而 sent2 不在.
如果你的数据不是这种形式,你应该把它转换成这种形式。
您尚未指定它是不受监督的还是受监督的。
对于监督:
使用 LSTM。逐字向 LSTM 输入句子。一旦句子结束(用记号 say 或句号标记),LSTM 就会预测句子是否应该在摘要中。在此基础上进行训练。
这有点类似于您进行情绪分析的方式:输入句子,然后询问情绪是积极的还是消极的。
您可以尝试堆叠 LSTM 或更改超参数以获得更好的结果。
对于无人监督:
这有点困难。您可以将句子转换为向量(Sent2Vec)并希望重要的句子聚集在一起,因为它们包含重要的单词。
或者你可以训练一个 RNN 来预测下一个字符,并希望其中一个神经元学会预测重要的单词/句子,就像OpenAI 的无监督情绪神经元学习预测情绪一样。
这些天遵循的一般“深度”架构是:嵌入、编码、参与、预测
查看我发布的链接(蓝色),它们可能对您有用。
注意:如果可能,请提及您的数据集以及您如何设法进行抽象摘要(考虑到它比提取要难得多)