在 Python 中逐句比较文本语料库

数据挖掘 Python nlp
2022-03-02 12:44:12

我有两个语料库(以句子列表的形式);一个是“原始”版本,另一个是它的一个版本,有一些细微的变化(例如,扩展了缩写):

s1 = ['He's a real stupid', 'There's no need to worry', 'All right, my friends']
s2 = ['He is a real stupid', 'There is no need to worry', 'All right, my friends']

我想获得相应句子对的一些渲染,其中句子之间存在一些差异。有什么优雅的解决方案吗?

1个回答

有几种方法可以做到这一点,但是,假设列表长度相同,并且您希望比较的句子在它们各自列表中的相同索引中,您可以通过简单的列表理解来处理:

diffs = [(s1[i], s2[i]) for i in range(len(s1)) if s1[i] != s2[i]]