我目前已经为每个用户收集了不同社交媒体帖子的数据集,并为每个用户分配了标签。我尝试使用 LSTM 和 BERT 来解决文本分类问题,因此对于每个帖子,我都尝试预测标签(例如年龄)。这还不够,因为您需要帖子总和中包含的所有信息来确定用户的年龄。我的第一个想法是为单个用户连接所有帖子,但由于我目前使用的 BERT 的最大序列长度为 512,因此它不起作用。我的第二个想法是使用文本摘要并将它们组合在一个向量中,并希望它不会超过最大长度限制。
您对可能的解决方案有什么建议吗?我认为这个问题已经在科学文献中得到解决,如果有人能指出我正确的方向,我将不胜感激。