我有大量的 CSV 文件,下面列出了一个示例(对于职称)。数据很嘈杂(有拼写错误、大小写不同、缺失值,而且它们的格式不正确(有些文件有标题,有些没有,如果存在标题,它们并不总是在名称上达成一致)。我有地名录可用。
...,IT Manager,...
...,Senior IT Manager,...
...,it manager,...
...,IT managre,...
...,junior IT managre,...
...,NULL,...
...,Business Consultant,...
...,Business consultent,...
我有一组有限的实体类型(名字、姓氏、位置等),任务是:给定此列的内容,它代表哪种实体类型(如果有)?(这是处理管道的第一步。)
它是命名实体识别[监督学习分类]任务的一种形式,但是我读过的所有关于命名实体识别的论文都使用条件随机场或最大熵进行自然语言任务,我认为这不算自然语言。
对于这样的任务,合适的方法/ML 算法是什么?我的训练数据应该如何格式化?