旅游网站留言板源码分享?旅游留言大全短的

大家好,如果您还对旅游网站留言板源码分享不太了解,没有关系,今天就由本站为大家分享旅游网站留言板源码分享的知识,包括旅游留言大全短的的问题都会给大家分析到,还望可以解决大家的问题,下面我们就开始吧!

爬虫的流程:

找到要爬取的内容列表页—构造要爬取的网页—定位每个内容所在的网页—爬取每个内容

找到要爬取的内容列表页

我们可以看到总共有137页,每一页有若干双语新闻,下面我们来讲解如何爬取里面的内容:

调用相关的模块,需要先安装pipinstall…例如,pipinstallrequestsre不需要安装属于,内置模块

设置请求头,目的是让网站认为是人在打开网页,而不是爬虫在打开,否则会被屏蔽

在E盘创建一个空的en88非文学翻译.txt,用来存放爬取的内容可以根据实际情况进行改动

20是要爬取的页数,我们看到上面的网站总共有137页,我们可以把20改成137

构造要爬取的网页:

构造网页,方法如下:

如果我们找到的内容列表页的网址是:(这是点下方的2显示的结果)

我们可以点其它页码,看网址是不是也是相应变化

点6的结果

我们可以看出变量是这个数字,这个数字代表页码

我们可以按照如下方法构造:

数字改成str(i):https://www.en84.com/fwx/page/str(i)/在str前添加单引号,https前也添加单引号:&39;str(i)/在(i)后添加单引号,最后也添加单引号:&39;str(i)&39;在str(i)前添加+:&39;+str(i)+&39;

其它例子:如果网址是:https://www.translation.cn/2/content

最后构造的网址就是:&39;+str(i)+&39;

定位每个内容所在的网页:(如何找到href以及对应的a,entry-title[这两个会因要爬取的不同的网站而发生变化)

在上面这个页面空白处,鼠标点右键,点检查

如果是第一次这么操作,打开的是:

点右上角的

出现

就会出现:

拖动右侧的滑块,看到第一篇双语为止

点左边的

点第一个标题

下方出现:

点击任意(此处需要耐心地一个个点击尝试)

直到出现

点击每一个

我们会发现上方对应的双语内容页也会被阴影覆盖

这说明我们找到了每个内容所对应的代码区了

看紧挨第一个article上方的代码

我们来找网址所在的代码区,即找href,方法:点开每一个

直到找到href

我们可以看到网址href在a标签(<>被称为标签)里,上一级标签为

这就是代码区entry-title,a,href的来由

爬取每个内容:(如何找到single-content和&39;)

点击刚才网页代码里的网址

弹出对应的网页内容

在空白处鼠标右键,点检查

点左边的

点任意文章内容,我们可以看到内容都藏在p标签里

我们可以看到第一个p标签的上一级标签代码为:

说明所有的p标签都藏在了标签div里,class值为single-content

至此,我们找到了所有的代码中需要确定的部分,进行相应的修改即可爬取不同的网站。

如果需要上述完整代码,请在评论区留言:源代码

关于旅游网站留言板源码分享的内容到此结束,希望对大家有所帮助。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平