我想爬一个网站,问题是,它充满了 JavaScript 的东西,比如按钮,当它们被按下时,它们不会改变 URL,但页面上的数据会改变。
通常我使用 LWP / Mechanize 等来抓取网站,但都不支持 JavaScript。任何的想法?
我想爬一个网站,问题是,它充满了 JavaScript 的东西,比如按钮,当它们被按下时,它们不会改变 URL,但页面上的数据会改变。
通常我使用 LWP / Mechanize 等来抓取网站,但都不支持 JavaScript。任何的想法?
另一种选择可能是selenium与WWW ::seleniummodule
该WWW ::的编剧module有一个JavaScript的插件,可能是有用的。但是,不能说我自己使用过它。
WWW::Mechanize::Firefox可能有用。这样你就可以让 Firefox 处理复杂的 JavaScript 问题,然后提取生成的 html。
我建议HtmlUnit和 Perl 包装器:WWW::HtmlUnit。