我应该使用哪些文本聚类算法来对 Python 中的自由文本字段进行分组?

数据挖掘 机器学习 Python nlp
2022-02-17 08:16:44

我有一个数据集,其中用户输入了自由文本(想想“APPLE”、“Apple”、“apple”、“appl”),我正在尝试按响应类型对输入进行分组(例如,组织所有前面的示例由“苹果”)。在 Python 中执行此操作的最佳方法是什么?

1个回答

这就是所谓的“实体解析”或“记录链接”。这是一个非常困难的问题。

如果可能的话,我会尝试在表单中添加“提前输入”。这将鼓励用户选择已使用的类别。

Fuzzywuzzy是一个用于近似字符串匹配的 Python 包。

dedupe是“一个 Python 库,它使用机器学习对结构化数据快速执行模糊匹配、重复数据删除和实体解析”。