我目前正在分析韩国社交媒体文本。下面是分析的步骤。
- 从社交媒体(例如 Twitter、Facebook)收集/抓取与特定主题相关的文本数据。
- 使用 BERT 分析数据。这包括文本分类和情感分析。
但是,我遇到了一些复杂的问题。
在第 1 步中,我用一些与该主题相关的关键字进行了搜索,但实际上,收集到的数据与该主题无关。其中一些与主题相关,但其中一些与主题无关。在这种情况下,如何获取这些与主题相关的数据?我应该对数据进行注释并训练模型以对相关/非相关数据进行分类吗?有没有诸如主题建模之类的无监督方法?有什么方法可以让我收集与主题相关的数据吗?
在第 2 步中,我实际上得到了文档、句子或段落,而不仅仅是一个句子。因此,主题和情绪在文档中混杂在一起,我真的很难对它们进行注释。我试图将文档分成较小的文档,但由于它们是社交媒体文本,因此没有区分它们的阈值。即使我可以,这也会产生另一个问题,即文档的上下文消失了,这会扼杀主题或情绪。
这是摘要:
- 收集步骤:收集与特定主题相关的数据
- 问题:收集的数据实际上与主题无关
- 分析步骤:使用BERT分析(分类)数据
- 标签混合在收集的数据中。我如何将它们分成一些有意义的部分(大到足以维护文档的上下文,小到足以轻松分析它们)
谢谢你。