数据挖掘 - 我应该使用哪些文本聚类算法来对 Python 中的自由文本字段进行分组？ - 吾爱随笔录

数据挖掘机器学习 Python nlp

2022-02-17 08:16:44

我有一个数据集，其中用户输入了自由文本（想想“APPLE”、“Apple”、“apple”、“appl”），我正在尝试按响应类型对输入进行分组（例如，组织所有前面的示例由“苹果”）。在 Python 中执行此操作的最佳方法是什么？

1个回答

这就是所谓的“实体解析”或“记录链接”。这是一个非常困难的问题。

如果可能的话，我会尝试在表单中添加“提前输入”。这将鼓励用户选择已使用的类别。

Fuzzywuzzy是一个用于近似字符串匹配的 Python 包。

dedupe是“一个 Python 库，它使用机器学习对结构化数据快速执行模糊匹配、重复数据删除和实体解析”。

其它你可能感兴趣的问题