偷偷撸图片：用Node.js写爬虫，撸羞羞的图片

2024-04-20 08:11:01 0 0

用Node.js写爬虫，撸羞羞的图片

说到爬虫，很多人都认为是很高大上的东西。哇塞，是不是可以爬妹纸图啊，是不是可以爬小片片啊。答案就是对的。爬虫可以完成这些东西的操作。但是，作为一个正直的程序员，我们要在法律允许范围内用爬虫来为我们服务，而不是为所欲为。（ps：此处应有掌声，谢谢。）

今天，我带来一个用Node.js写的爬虫。一说到教程呢，可能大多数人认为比较枯燥无味。那这样好了，我教大家爬妹纸图，上干货：

是不是瞬间有了动力了？

说到爬虫呢，其实从客观上来说，“所有网站皆可爬”。互联网的内容都是人写出来的，而且都是偷懒写出来的（不会第一页是a，下一页是8），所以肯定有规律，这就给人有了爬取的可能，可以说，天下没有不能爬的网站。而且即使网站不同，但是原理都类似，大部分爬虫都是从 发送请求——>获得页面——>解析页面——>下载内容——>储存内容 这样的流程来进行，只是用的工具不同，可能你用python，我用Node，他用PHP，但是思路也是与上面相同。

既然是用node完成爬虫，那么我们就要用到node环境，如果不会配的话，请参考我的第一篇博客。

好的，我们从爬虫流程开始分析我们需要的一些模块。

首先，我们需要发送请求获得页面，在这里呢，我们用到了request-promise模块。

根据这个结构我们可以使用$(".main-image").find("img")[0].attribs.src来爬取这张图片的地址（如果不知道为什么是attribs.src的话可以一步一步console.log()一下看看）。

最后，到了最关键的时候，我们使用fs模块进行创建文件夹以及下载文件。这里用到了fs模块的几个指令：

1.fs.mkdirSync(downloadPath)：查看是否存在这个文件夹。

2.fs.mkdirSync(downloadPath)：创建文件夹。

3.fs.createWriteStream(`${downloadPath}/${index}.jpg`):写入文件，这里需要注意的是fs.createWriteStream 似乎不会自己创建不存在的文件夹，所以在使用之前需要注意，保存文件的文件夹一定要提前创建。

好的，大体的方法就是以上的几个模块和步骤。

在这里，我针对这个网站的一些情况进行一下分析：

1.这个网站一个页面只有一张图片，但是每个页面的网址都是有根据的。“http://www.mzitu.com/125685”（当你输入“http://www.mzitu.com/125685/1”时也会跳转此页面），“http://www.mzitu.com/125685/2”等等。那么我们可以根据这个规律去爬取，并且我们需要在页面的下方的页码栏中获得这一组图图片的页码：