网站都会直接将产品信息在

在产品列表页中,反敲鼠标右键 点击查看源代码,你会找到网页的源代码。但从上到下仔细翻阅后,你会发现,源代码中并没有任何和产品有关的文字内容可供采集。 是的,通常大部分源代码中直接显示,这样的话,我们只要对代码中需要的内容进行前后截取即可。不过,技术不断更新,日新月异,目前,越来越多的网站弃用了这种传统网站制作方式,更多的是将数据存储在 中,通过 异步加载方式实现,并不直接在源代码中显示。这种数据抓取方式会复杂一些,但仍然有办法可以抓到。

打开你的 浏览器没有的话就安装

这里需要用到 的开发者工具,按 ,刷新页面,观察 ,你会找到一个可疑的 数据包链接,复制这个链接地址,在浏览器中打开这个链接,你会看到类似下图内容,这就是我 罗马尼亚 WhatsApp 号码列表 们需要的产品列表页的内容。 一堆乱码,看不懂也没关系,这么乱,我也看不懂,那么将这些内容复制粘贴到 这里,格式化后查看你可以看到如下内容: 这样就清晰多了,这是一个产品的字段信息,包括了 、图片、长、宽、高、价格、评分、折扣等信息。仔细检查发现,我们要的产品标题和描述内容这些信息并没在这里面。

WhatsApp 号码

我们继续找规律在列表点击其中一

个产品可以进入产品页面,观察 ,你会看到如下图这个 数据包链接,同样上述步骤,在浏览器中打开这个链接,复制内容到 格式化后看到了产品的详细信息了。 非常完 EC列表 整,运费、关注度、描述、变体信息全部都在。接下来,就是抓取信息了。 二、抓取 这里只做演示,所以,只采集其中一个字段,按照这个方法,以此类推,即可采集到完整的数据信息。 打开火车采集器,新建一个任务。开始之前,还得分析下列表页和产品页之间的联系。 列表页: 看到后面的 和 ,多找几个,你会发现, 是固定不变的, 则会在鼠标滚动一次增加 ,按照字面上的意思 表示每页显示 个, 是指当前加载到第几页。