数据挖掘 - 如何从给定的数据中提取洞察力？ - 吾爱随笔录

如何从给定的数据中提取洞察力？

数据挖掘 nlp 数据挖掘数据集数据清理

2022-02-16 16:34:20

好的，我有 3 列数据，唯一 id、原始文本和评论文本。我的任务是使用数据集并从中找到有意义的见解。原始文本是简单的英语，但评论文本是另一种语言。我不知道如何处理数据集。即使在我从原始文本中清除数据之后，我应该如何审查一个，因为它是另一种语言的。我应该进行哪种文本分析以及如何在数据集上实现它？

3个回答

评论文本中使用的语言恰好是我的母语。我可以确认 review_text 至少从您上面显示的内容是原始文本的直接翻译（尽管我会说翻译并不完美）。

也许您可以考虑制作无监督模型并可能在这两者之间进行比较，看看它们匹配多少（理论上因为它们是相同的文本，它们应该有很多重叠）。

我看到这个数据样本的第一个想法是平行语料库，Yohanes 刚刚确认文本列是相互翻译的。

处理这类数据的主要工作是训练机器翻译模型:)

如答案中所述，您可以尝试一种无监督的方法来比较两个文本。为了提供更多详细信息，您可以使用一些现有的词嵌入来为两个文本生成词嵌入。从谷歌快速搜索中的单词来看，review_text它看起来像是印度尼西亚语。但是您仍然可以使用FastText为其生成词嵌入，它支持 150 多种语言。

词嵌入将是一个高维向量，您可以使用一些降维方法，如PCA或t-SNE，并尝试可视化这些句子以了解它们的结构，如果有重叠或其他一些有用的见解。您还可以尝试为这两种语言标记词性标签，并查看句子的结构如何根据这些标签而有所不同。一旦您尝试可视化单词嵌入，您将能够找到许多有趣的模式。

其它你可能感兴趣的问题

上一篇多重共线性和单个特征的影响下一篇重复的句子会影响 Word2Vec 吗？