我有一个数据集,其中用户输入了自由文本(想想“APPLE”、“Apple”、“apple”、“appl”),我正在尝试按响应类型对输入进行分组(例如,组织所有前面的示例由“苹果”)。在 Python 中执行此操作的最佳方法是什么?
我应该使用哪些文本聚类算法来对 Python 中的自由文本字段进行分组?
数据挖掘
机器学习
Python
nlp
2022-02-17 08:16:44
1个回答
这就是所谓的“实体解析”或“记录链接”。这是一个非常困难的问题。
如果可能的话,我会尝试在表单中添加“提前输入”。这将鼓励用户选择已使用的类别。
Fuzzywuzzy是一个用于近似字符串匹配的 Python 包。
dedupe是“一个 Python 库,它使用机器学习对结构化数据快速执行模糊匹配、重复数据删除和实体解析”。
其它你可能感兴趣的问题