NLP中文本数据的编码

数据挖掘 Python nlp 预处理 相似 文本
2021-09-16 13:56:31

我正在使用网络抓取来创建数据集来获取数据。我有一个包含公司名称的“公司”列。我想对这个专栏进行编码,但我不知道如何找到代表同一家公司的句子。

例如:“International Business Machines Corporation”、“IBM”、“IBM India Pvt.Ltd”代表同一家公司。

有什么建议吗?谢谢

1个回答

这种问题称为记录链接(或有时实体匹配或其他变体)。该任务包括在代表实体(个人或组织)的字符串列表中查找代表相同实际实体的字符串。

有两种主要方法(可以组合):