如何在 Perl 网络爬虫中处理 Javascript?

IT技术 javascript perl web-crawler web-scraping
2021-03-13 02:11:18

我想爬一个网站,问题是,它充满了 JavaScript 的东西,比如按钮,当它们被按下时,它们不会改变 URL,但页面上的数据会改变。

通常我使用 LWP / Mechanize 等来抓取网站,但都不支持 JavaScript。任何的想法?

4个回答

另一种选择可能是seleniumWWW ::seleniummodule

WWW ::的编剧module有一个JavaScript的插件,可能是有用的。但是,不能说我自己使用过它。

WWW::Mechanize::Firefox可能有用。这样你就可以让 Firefox 处理复杂的 JavaScript 问题,然后提取生成的 html。

我建议HtmlUnit和 Perl 包装器:WWW::HtmlUnit