如何从全名定义人的性别?

数据挖掘 分类 nlp 算法
2022-03-15 15:34:10

给定人名,例如“Adjutor Ferguson”。

如何定义是男是女?

我想到了一个解决方案:

     I have found Person NLP training dataset here mbejda.github.io.

      And via a machine learning software like Apache Mahout, train it and provide real data.

但我不确定结果的准确性。

可能存在另一种方法吗?(例如 scikit-learn.org)

1个回答

该数据集看起来是一个很好的起点。请记住,当您从这些数据集制作自己的数据集时,如果您希望它能够很好地预测两者,您将希望保持男女比例平衡。

您使用什么机器学习软件(Apache Mahout、scikit-learn、weka 等)并不重要。选择一个适合您选择的语言的语言,因为对于较小的数据集大小,速度可能不会太在意。至于功能,您通常使用 ngram 作为 NLP 分类任务的基线。如果你在这里使用 ngram,你最终不会得到任何非常有趣的东西,因为该模型不会推广到任何看不见的名字。我建议您尝试使用字符 ngram 作为功能基线,也许像音节 ngram 之类的东西稍微高级一些(有关音节标记化,请参阅https://stackoverflow.com/questions/405161/detecting-syllables-in-a-词)。