基于多个帖子的用户分析

数据挖掘 机器学习 深度学习 nlp 伯特
2021-10-09 06:49:31

我目前已经为每个用户收集了不同社交媒体帖子的数据集,并为每个用户分配了标签。我尝试使用 LSTM 和 BERT 来解决文本分类问题,因此对于每个帖子,我都尝试预测标签(例如年龄)。这还不够,因为您需要帖子总和中包含的所有信息来确定用户的年龄。我的第一个想法是为单个用户连接所有帖子,但由于我目前使用的 BERT 的最大序列长度为 512,因此它不起作用。我的第二个想法是使用文本摘要并将它们组合在一个向量中,并希望它不会超过最大长度限制。

您对可能的解决方案有什么建议吗?我认为这个问题已经在科学文献中得到解决,如果有人能指出我正确的方向,我将不胜感激。

2个回答

您可能想看看XLNet

在 XLNet 中,您可以输入一个句子,然后获取状态并将其注入到新的运行中,如果 XLNet 带有第二个输入句子,则将其注入带有第三个句子的第三个句子,依此类推。

从本质上讲,这允许您处理几乎无限长度的文本。

我在想你是否可以使用 fasttext 或 gensim 对整个帖子进行矢量化。如果我正确理解了问题陈述,这里是示例教程。