如何从给定的数据中提取洞察力?

数据挖掘 nlp 数据挖掘 数据集 数据清理
2022-02-16 16:34:20

好的,我有 3 列数据,唯一 id、原始文本评论文本我的任务是使用数据集并从中找到有意义的见解。原始文本是简单的英语,但评论文本是另一种语言。我不知道如何处理数据集。即使在我从原始文本中清除数据之后,我应该如何审查一个,因为它是另一种语言的。我应该进行哪种文本分析以及如何在数据集上实现它?

数据集

3个回答

评论文本中使用的语言恰好是我的母语。我可以确认 review_text 至少从您上面显示的内容是原始文本的直接翻译(尽管我会说翻译并不完美)。

也许您可以考虑制作无监督模型并可能在这两者之间进行比较,看看它们匹配多少(理论上因为它们是相同的文本,它们应该有很多重叠)。

我看到这个数据样本的第一个想法是平行语料库,Yohanes 刚刚确认文本列是相互翻译的。

处理这类数据的主要工作是训练机器翻译模型:)

如答案中所述,您可以尝试一种无监督的方法来比较两个文本。为了提供更多详细信息,您可以使用一些现有的词嵌入来为两个文本生成词嵌入。从谷歌快速搜索中的单词来看,review_text它看起来像是印度尼西亚语。但是您仍然可以使用FastText为其生成词嵌入,它支持 150 多种语言。

词嵌入将是一个高维向量,您可以使用一些降维方法,如PCAt-SNE,并尝试可视化这些句子以了解它们的结构,如果有重叠或其他一些有用的见解。您还可以尝试为这两种语言标记词性标签,并查看句子的结构如何根据这些标签而有所不同。一旦您尝试可视化单词嵌入,您将能够找到许多有趣的模式。