我有数千个字符串列表,每个列表大约有 10 个字符串。给定列表中的大多数字符串都非常相似,尽管有些字符串(很少)与其他字符串完全无关,并且有些字符串包含不相关的单词。它们可以被认为是规范字符串的嘈杂变体。我正在寻找一种算法或库,它将每个列表转换为这个规范的字符串。
这是一份这样的清单。
- 星球大战:第四集新希望 | 星球大战网
- 星球大战 IV - 新希望 (1977)
- 星球大战:第四集 - 新希望 - 烂番茄
- 观看星球大战:第四集 - 新希望在线免费
- 星球大战 (1977) - 最伟大的电影
- [REC] 4 张海报承诺被舷外机杀死
对于这个列表,任何匹配正则表达式的字符串^Star Wars:? Episode IV (- )?A New Hope$
都是可以接受的。
我在 Coursera 上查看了 Andrew Ng 的机器学习课程,但我找不到类似的问题。