我有兴趣按名字、姓氏和出生年份链接 2 个数据集的记录。这对 EM 算法是否可行,如果可以,如何实现?
以 1st 中的以下记录为例:Carl McCarthy,1967。我将搜索第二个数据集中的所有记录,并在第一个名字和 Carl 之间分配一个 jaro-winkler 距离,在姓氏和 McCarthy 之间分配一个 jaro-winkler 距离。这些距离是概率性的,出生年份之间的距离也是如此。我们将这 3 个概率(乘?平均?)合并为 1。
现在是决策规则部分。让我们将所有概率从高到低排列。首先,我们想要 P(first hit is match) >= threshold。其次,如果 P(second hit is match) 存在,我们还希望 P(first hit is match) / P(second hit is match) >= threshold。第三,我们希望第二个数据集中的第一个匹配匹配第一个数据集中不超过 1 人的 Carl McCarthy,1967。
如何确定这些阈值?
我更喜欢 Stata 和/或 Perl 中的方法。
参见,例如:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(尽管如此,我仍然没有完全理解为什么或如何,输入和输出是什么,以及假设和它们的限制性)。