因此,自 1963 年以来,我一直在从所有动漫/漫画角色的宇宙中编制符合特定标准 ( http://www.gwern.net/hafu#list ) 的虚构(动漫/漫画)角色列表(即总大小未知 - 但非常大!),我一直想知道如何估计我的列表在任何时候有多完整。
我的最终目标是对字符数据进行切片,并按年或十年寻找趋势;了解我的样本实际有多大可能有助于我估计系统偏差。如果我得到了大部分估计的字符,那么我可以希望任何十年的趋势都可能是真实的,而不仅仅是“在灯柱下看”的情况。
什么样的技术在这里有用?我看过,“capture-recapture”似乎是一个答案(尤其是阅读Predicting total number of bugs based on the number of bugs rolling by each tester)
但我不清楚它是否真的适用于此。在我的场景中,“重新捕获”是什么?我是否必须跟踪我遇到的每个 Google 搜索或 Google Alerts 结果或hafu字符列表,并写下每个条目是否已经存在于我的主列表中?捕获-重新捕获中是否存在此处不满足的假设?
更新:由于没有人回答是或否,我继续做了:
- 结果: http: //www.gwern.net/hafu#corpus-estimation-result
- 数据&源代码: http: //www.gwern.net/hafu#capture-recapture-code