从亚马逊抓取客户评论

数据挖掘 爬行
2022-03-03 20:08:31

我想知道是否有任何方法可以在不被阻止的情况下从亚马逊抓取特定产品的客户评论。目前,我的爬虫在几次后被阻止。任何想法将不胜感激。

3个回答

您被阻止是因为人们不想将服务器带宽浪费在试图利用它而不带来可观利润的人身上。

尽量让你的爬行更难预测。

减慢 ping 服务器的频率并改变爬虫的操作。这将使其更难被发现,因为它的行为难以预测,并且可能被错误地识别为一个非常快速的人类。

亚马逊将通过其快速和常规的操作以及相同的 IP 来检测刮板。通常,抓取自动化工具可以通过旋转 IP 来跳过它的块并减慢操作速度。我们的产品Octoparse Cloud Extraction可以通过我们数百个 IP 解决这个问题,并且可以将爬虫的动作分解到不同的服务器。

根据我的经验,每 10 个亚马逊请求至少需要 1 个代理,这意味着如果你想抓取 1000 种产品,则需要 100 个代理才能保证安全。

在过去,我尝试了许多服务,例如 luminati.io 和 proxyrack.com,但它们的问题都是它们的代理最终被阻止,你必须获得新的代理,而这最终会变得非常昂贵。

所以我尝试了 proxycrawl.com,它提供了基于消费而不是代理的价格,并且效果更好,因为我现在不必关心代理的数量,我只需加载亚马逊评论。

所以要明确一点,如果您想使用自己的代理,请每 10 个产品计算 1 个代理,否则只需搜索可以为您处理所有这些的公司。