我正在使用网络抓取来创建数据集来获取数据。我有一个包含公司名称的“公司”列。我想对这个专栏进行编码,但我不知道如何找到代表同一家公司的句子。
例如:“International Business Machines Corporation”、“IBM”、“IBM India Pvt.Ltd”代表同一家公司。
有什么建议吗?谢谢
我正在使用网络抓取来创建数据集来获取数据。我有一个包含公司名称的“公司”列。我想对这个专栏进行编码,但我不知道如何找到代表同一家公司的句子。
例如:“International Business Machines Corporation”、“IBM”、“IBM India Pvt.Ltd”代表同一家公司。
有什么建议吗?谢谢
这种问题称为记录链接(或有时实体匹配或其他变体)。该任务包括在代表实体(个人或组织)的字符串列表中查找代表相同实际实体的字符串。
有两种主要方法(可以组合):