大家好,如果您还对旅游网站留言板源码分享不太了解,没有关系,今天就由本站为大家分享旅游网站留言板源码分享的知识,包括旅游留言大全短的的问题都会给大家分析到,还望可以解决大家的问题,下面我们就开始吧!
爬虫的流程:
找到要爬取的内容列表页—构造要爬取的网页—定位每个内容所在的网页—爬取每个内容
找到要爬取的内容列表页:
我们可以看到总共有137页,每一页有若干双语新闻,下面我们来讲解如何爬取里面的内容:
调用相关的模块,需要先安装pipinstall…例如,pipinstallrequestsre不需要安装属于,内置模块
设置请求头,目的是让网站认为是人在打开网页,而不是爬虫在打开,否则会被屏蔽
在E盘创建一个空的en88非文学翻译.txt,用来存放爬取的内容可以根据实际情况进行改动
20是要爬取的页数,我们看到上面的网站总共有137页,我们可以把20改成137
构造要爬取的网页:
构造网页,方法如下:
如果我们找到的内容列表页的网址是:(这是点下方的2显示的结果)
我们可以点其它页码,看网址是不是也是相应变化
点6的结果
我们可以看出变量是这个数字,这个数字代表页码
我们可以按照如下方法构造:
数字改成str(i):https://www.en84.com/fwx/page/str(i)/在str前添加单引号,https前也添加单引号:&39;str(i)/在(i)后添加单引号,最后也添加单引号:&39;str(i)&39;在str(i)前添加+:&39;+str(i)+&39;
其它例子:如果网址是:https://www.translation.cn/2/content
最后构造的网址就是:&39;+str(i)+&39;
定位每个内容所在的网页:(如何找到href以及对应的a,entry-title[这两个会因要爬取的不同的网站而发生变化)
在上面这个页面空白处,鼠标点右键,点检查
如果是第一次这么操作,打开的是:
点右上角的
出现
点
就会出现:
拖动右侧的滑块,看到第一篇双语为止
点左边的
点第一个标题
下方出现:
点击任意(此处需要耐心地一个个点击尝试)
直到出现
点击每一个
我们会发现上方对应的双语内容页也会被阴影覆盖
这说明我们找到了每个内容所对应的代码区了
看紧挨第一个article上方的代码
我们来找网址所在的代码区,即找href,方法:点开每一个
直到找到href
我们可以看到网址href在a标签(<>被称为标签)里,上一级标签为
这就是代码区entry-title,a,href的来由
爬取每个内容:(如何找到single-content和&39;)
点击刚才网页代码里的网址
弹出对应的网页内容
在空白处鼠标右键,点检查
点左边的
点任意文章内容,我们可以看到内容都藏在p标签里
我们可以看到第一个p标签的上一级标签代码为:
说明所有的p标签都藏在了标签div里,class值为single-content
至此,我们找到了所有的代码中需要确定的部分,进行相应的修改即可爬取不同的网站。
如果需要上述完整代码,请在评论区留言:源代码
关于旅游网站留言板源码分享的内容到此结束,希望对大家有所帮助。
