现在我正在开发一个网络爬虫。这个应该解析一些特定的站点并给我一个输出到一个 xml 文件中。到此为止,没有问题。Crawler 可以工作,您可以通过 cfg 文件快速自定义它。我使用 Jsoup 来解析 HTML 内容。
我刚刚添加了更多网站,并注意到我在通过 JavaScript 创建的 HTML 内容方面遇到了一个大问题。有没有办法让 Jsoup 支持 Javascript?或者至少获得我可以在浏览器中看到的完整 HTML 内容。
我已经尝试过 HtmlUnit,但是这个效果不佳。它没有给我在浏览器中获得的内容。
真诚的,
奥戈福