各位老铁们好,相信很多人对在线阅读翻页网站源码分享都不是特别的了解,因此呢,今天就来为大家分享下关于在线阅读翻页网站源码分享以及网页翻书效果是怎么做的的问题知识,还望可以帮助大家,解决大家的一些困惑,下面一起来看看吧!
来啦,老弟
我们已经知道怎么使用
python爬虫04|长江后浪推前浪,Requests库urllib库拍在沙滩上
进行各种请求骚操作
也知道了对服务器返回的数据如何使用
python爬虫05|年轻人,不会正则表达式你睡得着?有点出息没有
来过滤我们想要的内容
…
那么接下来
我们就使用requests和re来写一个爬虫
作为一个爱看书的你(说的跟真的似的)
怎么能发现好书呢?
所以我们
爬取当当网的前500本好五星评书籍
怎么样?
ok
接下来就是
学习python的正确姿势
请在电脑的陪同下
边看本文边练习
首先我们要对我们的目标网站进行分析
先摸清对方的底
我们才能战无不胜
打开这个书籍排行榜的地址
http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-1
我们可以看到是这样的一个网页
每一页显示20本书
当我们点击下一页的时候
你可以发现地址变了
http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-2
也就是我们翻到第几页的时候
链接地址的最后一个参数会跟着变
那么我们等会在python中可以用一个变量
来实现获取不同页数的内容
接着
用我们之前说的python爬虫入门01:教你在Chrome浏览器轻松抓包骚操作
来分析一下
我们要的内容是怎么请求的
以及
返回给我们的源代码是什么样的
可以看到
我们通过GET请求
我们的请求头
这是服务器返回来的数据
接着我们再来分析一下我们要抓取的关键信息
我们要的就是前500本书的
排名
书名
图片地址
作者
推荐指数
五星评分次数
价格
通过源码我们可以看到
这些信息被放在了<li>标签中
那么我们等会就可以使用
python爬虫05|年轻人,不会正则表达式你睡得着?有点出息没有
来进行过滤我们要的信息
一顿分析完了之后
接下来撸代码了
主要思路
使用page变量来实现翻页
我们使用requests请求当当网
然后将返回的HTML进行正则解析
由于我们暂时还没学到数据库
所以解析完之后就把内容存到文件中
defmain(page):\nurl=&39;+str(page)\nhtml=request_dandan(url)\nitems=parse_result(html)39;<li>.*?list_num.*?(\\d+).</div>.*?<imgsrc=&34;.*?class=&34;.*?title=&34;>.*?class=&34;>.*?class=&34;>(.*?)</span>.*?class=&34;>.*?target=&34;>(.*?)</a>.*?class=&34;>.*?<span>(.*?)</span></div>.*?<p><span\\sclass=&34;>¥(.*?)</span>.*?</li>&39;range&39;iamge&39;title&39;recommend&39;author&39;times&39;price&34;__main__&39;开始写入数据====>&39;book.txt&39;a&39;UTF-8&39;\\n')\nf.close()
完成
项目跑起来
打开我们存储的book.txt看看
前500本书的数据就被我们拿到啦
本篇完
完整代码小帅b已经放到公众号后台啦
需要的朋友
在公众号发送
500
即可获取
ok
咱们下回再见
关注我
学习Python没烦恼
近期文章
python爬虫03:那个叫Urllib的库让我们的python假装是浏览器
python爬虫入门01:教你在Chrome浏览器轻松抓包
支持小帅b的就顺手
点个赞吧
END,本文到此结束,如果可以帮助到大家,还望关注本站哦!
