我正在尝试合并两个关于并购的数据集。它们都包含 c.10'000 个观测值,每个观测值具有 c.50-100 个变量。一个包含有关实际并购交易的信息,而另一个包含有关如何为交易融资的信息。
问题是没有明确和唯一的标识符。例如,我可以使用宣布交易的日期,但这不是唯一的,因为在某些日子里宣布了 10 笔交易。使用公司名称很困难,因为它们在两个数据集中大多不相同。例如,如果我在一个数据集中找到“Ebay”,在另一个数据集中,同一家公司可能被称为“eBay”、“Ebay Inc”或“Ebay, Inc.”。
我一直在使用 Excel 的 Fuzzy Lookup 附加组件,以及连接各种不唯一但组合起来很有用的标识符(例如日期和国家/地区以及 SIC 行业分类代码等)。但是,我无法像我希望的那样生成尽可能多的匹配项。
对于任何有助于我更有效地合并数据集的资源的想法或指针,我将不胜感激。