捕获-再捕获抽样在文学分析中有效吗?

机器算法验证 可能性 采样 捕获标记重新捕获
2022-03-23 08:00:55

因此,自 1963 年以来,我一直在从所有动漫/漫画角色的宇宙中编制符合特定标准 ( http://www.gwern.net/hafu#list ) 的虚构(动漫/漫画)角色列表(即总大小未知 - 但非常大!),我一直想知道如何估计我的列表在任何时候有多完整。

我的最终目标是对字符数据进行切片,并按年或十年寻找趋势;了解我的样本实际有多大可能有助于我估计系统偏差。如果我得到了大部分估计的字符,那么我可以希望任何十年的趋势都可能是真实的,而不仅仅是“在灯柱下看”的情况。

什么样的技术在这里有用?我看过,“capture-recapture”似乎是一个答案(尤其是阅读Predicting total number of bugs based on the number of bugs rolling by each tester

但我不清楚它是否真的适用于此。在我的场景中,“重新捕获”是什么?我是否必须跟踪我遇到的每个 Google 搜索或 Google Alerts 结果或hafu字符列表,并写下每个条目是否已经存在于我的主列表中?捕获-重新捕获中是否存在此处不满足的假设?

更新:由于没有人回答是或否,我继续做了:

1个回答

Capture-recapture 在这两种情况下都依赖于随机样本。你需要从未知的字符池中随机抽取一个样本,对它们进行计数,然后制作另一个完全独立的样本,并计算重叠部分。在生物学中,捕获-重新捕获是有效的,因为您希望标记的鱼与封闭体积中的其他鱼混合在一起,以至于两个月后,标记的鱼已经分布在湖的整个体积中,因此通过进行另一次随机测量,您可以得到一个独立的样本。因此,两个样本的随机性包括(i)在湖中随机选择的部分采集鱼样本;(ii) 依靠自然生物混合过程将标记的鱼重新分布在周围。

在社会科学(这是您的小项目所在)中实施捕获-重新捕获非常困难,因为某些人/角色在​​系统上比其他人更容易捕获到样本中。有时,网络样本被用来估计难以触及的未知人群的规模,但它们依赖于某种社会动态来移动样本。

在其他试图研究给定集合/列表可能有多完整的作品中,我记得大卫班克斯关于维基百科有多完整的工作以及布拉德埃夫隆和罗恩希斯特德的经验贝叶斯关于莎士比亚知道多少单词的工作。因此,使用 capture-recapture 进行文学作品大约有 35 年的历史了——很抱歉告诉你这个坏消息;)。

我认为,如果您进行了扎实的研究,这将是非常适合皇家统计学会和美国统计学会的Significance联合杂志的出版物。