关于爬虫,qpython 爬虫

最近想找几本电子书看看就翻啊翻,然后呢找到了一个 叫做 周读的网站 ,网站特别好简单清爽,书籍很多而且打开都是百度网盘可以直接下载,更新速度也还可鉯于是乎,我给爬了本篇文章学习即可,这么好的分享网站尽量不要去爬,影响人家访问速度就不好了 / ,想要数据的可以在我博客丅面评论,我发给你QQ,邮箱啥的都可以。

这个网站页面逻辑特别简单 我翻了翻 书籍详情页面 ,就是下面这个样子的我们只需要循環生成这些页面的链接,然后去爬就可以了为了速度,我采用的多线程你试试就可以了,想要爬取之后的数据就在本篇博客下面评論,不要搞坏别人服务器

上面的代码可以同步开启N多个线程,但是这样子很容易造成别人的服务器瘫痪所以,我们必须要限制一下并發次数下面的代码,你自己尝试放到指定的位置吧

# 为避免爬虫一次性请求次数太多,控制一下

处理抓取到的网页源码提取我们想要的元素,我新增了一个方法采用lxml进行数据提取。

# 如果页面没有信息直接返回即可 # 这部分内容不明确,不做记录

数据格式化之後保存到csv文件,收工!

因为这个可能涉及到获取别人服务器重要数据了代码不上传github了,有需要的留言吧我单独发送给你

我要回帖

更多关于 python 爬虫 的文章

 

随机推荐