在Excel中合并两个标识符不明确的数据集

数据挖掘 数据库
2022-02-27 16:14:17

我正在尝试合并两个关于并购的数据集。它们都包含 c.10'000 个观测值,每个观测值具有 c.50-100 个变量。一个包含有关实际并购交易的信息,而另一个包含有关如何为交易融资的信息。

问题是没有明确和唯一的标识符。例如,我可以使用宣布交易的日期,但这不是唯一的,因为在某些日子里宣布了 10 笔交易。使用公司名称很困难,因为它们在两个数据集中大多不相同。例如,如果我在一个数据集中找到“Ebay”,在另一个数据集中,同一家公司可能被称为“eBay”、“Ebay Inc”或“Ebay, Inc.”。

我一直在使用 Excel 的 Fuzzy Lookup 附加组件,以及连接各种不唯一但组合起来很有用的标识符(例如日期和国家/地区以及 SIC 行业分类代码等)。但是,我无法像我希望的那样生成尽可能多的匹配项。

对于任何有助于我更有效地合并数据集的资源的想法或指针,我将不胜感激。

2个回答

我通常按​​照以下方式进行,

  1. LOWER()用or转换为相同的大小写UPPER()
  2. 删除所有带有多个 的非字母数字字符SUBSTITUTE(),例如SUBSTITUTE(A1, ".", "");
  3. 修剪空白TRIM()
  4. LEFT(A1, FIND(" ", A1) - 1)用;提取第一个单词
  5. 再次修剪空白;
  6. 对您创建的密钥执行联接。

通常这会给你一个不错的匹配。

使用具有一些非常复杂的相似性算法的谷歌搜索来查找公司名称,并使用 python、mathematica 或 import.io 或您选择的工具查看是否指向相同的网站地址。