我被提供了一个文本清理任务,我假设这涉及到一些自然语言处理。
我有一组没有任何特定模式的名称,我需要从该列表中分离出各个名称。
下面是一个例子:
John Batista Barack Obama George W. Bush Serafim Batzoglou Vijay Pande Fei Fei Li Oussama Khatib Kwame Nkrumah John Oliver
如您所见,该段落有两点特别之处。
1) 空格“”是唯一的分隔符,但是,它是不可用的,因为有些名字有中间名。
2) 我有法语、德语、西班牙语、汉语和其他民族发音用英语写的名字。
现在我面临的挑战是从这一段中找到名字。我对 NLP 非常陌生,使用 Python 和 R 进行建模工作。
任何帮助将不胜感激。