如何从给定的数据中提取洞察力?
数据挖掘
nlp
数据挖掘
数据集
数据清理
2022-02-16 16:34:20
3个回答
评论文本中使用的语言恰好是我的母语。我可以确认 review_text 至少从您上面显示的内容是原始文本的直接翻译(尽管我会说翻译并不完美)。
也许您可以考虑制作无监督模型并可能在这两者之间进行比较,看看它们匹配多少(理论上因为它们是相同的文本,它们应该有很多重叠)。
我看到这个数据样本的第一个想法是平行语料库,Yohanes 刚刚确认文本列是相互翻译的。
处理这类数据的主要工作是训练机器翻译模型:)
其它你可能感兴趣的问题
