最近想找几本电子书看看就翻啊翻,然后呢找到了一个 叫做 周读
的网站 ,网站特别好简单清爽,书籍很多而且打开都是百度网盘可以直接下载,更新速度也还可鉯于是乎,我给爬了本篇文章学习即可,这么好的分享网站尽量不要去爬,影响人家访问速度就不好了 /
,想要数据的可以在我博客丅面评论,我发给你QQ,邮箱啥的都可以。
这个网站页面逻辑特别简单 我翻了翻 书籍详情页面 ,就是下面这个样子的我们只需要循環生成这些页面的链接,然后去爬就可以了为了速度,我采用的多线程你试试就可以了,想要爬取之后的数据就在本篇博客下面评論,不要搞坏别人服务器
上面的代码可以同步开启N多个线程,但是这样子很容易造成别人的服务器瘫痪所以,我们必须要限制一下并發次数下面的代码,你自己尝试放到指定的位置吧
# 为避免爬虫一次性请求次数太多,控制一下
处理抓取到的网页源码提取我们想要的元素,我新增了一个方法采用lxml
进行数据提取。
数据格式化之後保存到csv
文件,收工!
因为这个可能涉及到获取别人服务器重要数据了代码不上传github了,有需要的留言吧我单独发送给你