将作者与已发表论文联系起来

数据挖掘
2021-09-22 04:42:01

我对将医生与他们发表的论文联系起来特别感兴趣。关键问题是单独使用名称会导致许多冲突。我想知道我需要哪些功能才能可靠地将医生与给定的已发表论文联系起来?除了专业等薄弱特征外,是否有任何数据库可以将医生 NPI 与发表的论文联系起来?

我在将 NPI 与 PubMed 中的作者联系起来时看到了这一点,但这似乎相当不可靠。

1个回答

即使对于像Research Gate (RG)这样具有很大影响力的团体来说,这也不是一个容易回答的问题。RG 有它自己的(我假设是专有的)author matching algorithm ,它在过去造成了问题

他们使用作者的名字(以不同的组合)向 RG 用户建议作者身份(你说过,这确实会导致很多问题)。每隔一段时间,非作者的用户就会接受建议,并且从门户的角度来看,获得同等的声誉。这是一项严肃的业务,在做出决定之前需要进行大量的研发。

话虽这么说,我不能只在合理的可能性下肯定地回答。我会提出几个问题(并希望通过一些数据分析来回答):

  • 在确定的期刊上发表过文章的作者再次在该期刊上发表文章的概率是多少?-期刊名称

  • 与其他作者合作的作者重复相同的共同创作组合的概率是多少?合著者姓名

  • 每位作者的预期出版时间是多少?作者很少发表相隔 20 年的文章。通常,他们发布的内容越来越多,或者越来越少。大体时间

  • 作者多久更换一次他们所属的机构?机构名称

  • 给定作者的首选关键字是什么?键名

  • 给定作者的首选引文是什么?参考书目

上面所有的问题都需要大量的文本挖掘字符串匹配,以及可靠的数据集来开始你的挖掘。

一些出版商有自己的API,尽管我不能说太多关于许可的内容(我自己从未尝试过)。RG 多年来一直很有希望,但据我所知,它仍然不存在

我现在记得的一件不太可能的事情是Aaron Swartz鼓舞人心的故事。这位活动家与其他人一起成功地为书籍和文章创建了大型开放档案。如果该信息仍然存在,可能值得您花时间去看看

此外,如果您有一份您正在考虑的期刊列表(您只提到了有点含糊的“医生”),您可以尝试与出版商联系,看看他们是否有任何方式访问他们的数据库。