我需要确保我的 XML 站点地图少于垃圾(断开的链接)。URL 列表有数十万个,即使可以一一测试它们是可行的,我也不想这样做,原因有很多:
1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...
所以我认为采用随机子集就足够了,问题是我不知道概率。
我可以使用一个简单的功能吗?
如果它有帮助,我们可以假设有一个关于链接在运行中被破坏的概率的先验信息。假设跨越运行有一个任何给定的链接被破坏。