如何在任何网络浏览器中运行 Puppeteer 代码?

IT技术 javascript node.js web-scraping puppeteer
2021-03-03 03:05:43

我正在尝试使用 Puppeteer 进行一些网络抓取,我需要将值检索到我正在构建的网站中。

我试图在 html 文件中加载 Puppeteer 文件,就好像它是一个 JavaScript 文件一样,但我一直收到错误消息。但是,如果我在 cmd 窗口中运行它,它运行良好。

Scraper.js:
getPrice();
function getPrice() {
    const puppeteer = require('puppeteer');
    void (async () => {
        try {
            const browser = await puppeteer.launch()
            const page = await browser.newPage()              
            await page.goto('http://example.com') 
            await page.setViewport({ width: 1920, height: 938 })        
            await page.waitForSelector('.m-hotel-info > .l-container > .l-header-section > .l-m-col-2 > .m-button')
            await page.click('.m-hotel-info > .l-container > .l-header-section > .l-m-col-2 > .m-button')
            await page.waitForSelector('.modal-content')
            await page.click('.tile-hsearch-hws > .m-search-tabs > #edit-search-panel > .l-em-reset > .m-field-wrap > .l-xs-col-4 > .analytics-click')
            await page.waitForNavigation();
            await page.waitForSelector('.tile-search-filter > .l-display-none')
            const innerText = await page.evaluate(() => document.querySelector('.tile-search-filter > .l-display-none').innerText);
            console.log(innerText)
        } catch (error) {
            console.log(error)
        }

    })()
}
索引.html:
<html>
  <head></head>
  <body>
    <script src="../js/scraper.js" type="text/javascript"></script>
  </body>
</html>

Chrome控制台中的预期结果应该是这个:

但我收到了这个错误:

我究竟做错了什么?

1个回答

编辑:由于 puppeteer 取消了对 puppeteer-web 的支持,我将其移出 repo 并尝试对其进行一些修补。

它确实适用于浏览器。该软件包称为puppeteer-web,专为此类情况而设计。

但重点是,必须在某些服务器上运行某些 chrome 实例。只有这样你才能连接到它。

您可以稍后在您的网页中使用它来通过其 WS 端点驱动另一个浏览器实例:

<script src="https://unpkg.com/puppeteer-web">
</script>

<script>
  const browser = await puppeteer.connect({
    browserWSEndpoint: `ws://0.0.0.0:8080`, // <-- connect to a server running somewhere
    ignoreHTTPSErrors: true
  });

  const pagesCount = (await browser.pages()).length;
  const browserWSEndpoint = await browser.wsEndpoint();
  console.log({ browserWSEndpoint, pagesCount });
</script>

我在 puppeteer 和 webpack 上玩得很开心,

请参阅这些答案以全面了解创建服务器等,

嗯,在我看来这有点困难......我正在尝试另一种称为 Goutte 的替代方案,它似乎更适合我的需求,而且在 Web 浏览器中显示结果时更容易,因为它使用 PHP 和它不需要外部命令。无论如何,我会保存您的答案以备将来需要时使用。太感谢了!!
2021-04-26 03:05:43
看起来我需要尽快找到替代方案并更新答案。:D 给我一点时间,周末后我会检查。
2021-04-30 03:05:43
不客气。但是,由于您的问题是关于木偶操作的,而不是一般的刮擦,我相信答案非常适合您的问题 :D 。
2021-05-02 03:05:43
是过去提交的旧链接看起来他们在这个拉取请求中删除了它
2021-05-17 03:05:43
官方链接 404'd
2021-05-18 03:05:43