基于内容确定 CSV 文件头名称的 ML 算法

数据挖掘 机器学习 命名实体识别 CSV
2022-02-05 16:29:39

我有大量的 CSV 文件,下面列出了一个示例(对于职称)。数据很嘈杂(有拼写错误、大小写不同、缺失值,而且它们的格式不正确(有些文件有标题,有些没有,如果存在标题,它们并不总是在名称上达成一致)。我有地名录可用。

...,IT Manager,...
...,Senior IT Manager,...
...,it manager,...
...,IT managre,...
...,junior IT managre,...
...,NULL,...
...,Business Consultant,...
...,Business consultent,...

我有一组有限的实体类型(名字、姓氏、位置等),任务是:给定此列的内容,它代表哪种实体类型(如果有)?(这是处理管道的第一步。)

它是命名实体识别[监督学习分类]任务的一种形式,但是我读过的所有关于命名实体识别的论文都使用条件随机场或最大熵进行自然语言任务,我认为这不算自然语言。

对于这样的任务,合适的方法/ML 算法是什么?我的训练数据应该如何格式化?

1个回答

是的,它可能不是完全自然的语言理解,但 CRF 是训练命名实体识别任务的优秀算法,并且是斯坦福 NLP 小组使用的标准模型。你可以在这里试用他们的 NER 标记器如果你想要解释语言理解的东西,那么有些论文已经训练了循环神经网络架构,例如 LSTM 和双向 RNN。看看这篇论文我必须告诉你,命名实体识别是一个非常困难的问题,如果你想使用深度学习架构,它需要大量的数据。我会建议尝试使用斯坦福 NER 标记器,因为您的数据没有太多的顺序性,我确信它会表现良好。最后在这里是一篇优秀博文的第 1 部分,详细介绍了如何使用斯坦福 NER 工具训练您自己的 NER 模型。