python输出网站源码分享？python分析网页源码html

作者：

在

很多朋友对于python输出网站源码分享和python分析网页源码html不太懂，今天就由小编来为大家分享，希望可以帮助到大家，下面一起来看看吧！

/1前言/

上篇文章手把手教你爬取天堂网1920*1080大图片（批量下载）——理论篇我们谈及了天堂网站图片抓取的理论，这篇文章将针对上篇文章的未尽事宜进行完善，完成图片的批量抓取。

/2图片网址解析/

1.我们首先来分析一下这个图片的地址在哪里。我们选择图片，然后右击网页检查，可以看到图片的路径，如下图所示。

2.将其单独放出来，如下图所示。

3.可以看到<ahref>就是图片的链接，而src就图片的地址，所以我们可以找它的上一级标签<ul>。如果再找不到那就再找上一级以此类推（找到越详细内容更准确）。使用选择器xpath，获取到src的值（网址后缀）之后，将后缀加上“https前缀”就可以得到每一个网址，如下图所示：

4.之后尝试运行，如下图所示，可以获取到具体的网址。

5.我们再对这个网址进行请求（参考一个请求的方法）分析数据。

6.我们以这个鱼的图片为例，点击它来到二级页面。

7.右键检查可以看到我们要获取的是src的地址，如下图所示。

8.获取图片的源码，如下图所示。

9.Xpath获取到路径，为了方便区分图片的名字，如下图所示。

/3下载图片/

1.为方便储存，新建一个filename来作为保存的路径，如下图所示。

2.也就是说你需要在Python代码的同级目录，提前新建一个文件夹，名叫“天堂网爬的图片”，如果没有这个文件夹的话，将会报下图的错。

3.使用with函数进行文件的打开和写入，下方代码的含义是创建一个文件，代码框里边有具体的注释。

&34;34;asf&意思是写入一个叫f的文件。\n&34;随机打印ie浏览器任意版本\nprint(ua.firefox)随机打印chrome浏览器任意版本\nprint(ua.random)#随机打印任意厂家的浏览器

6.我们可以再初始化init方法，添加ua.random，让它随机的产生；其中UserAgent代码如图：（这里设置随机产生50个挑选其中一个进行请求）

7.最终实现的效果图，终端显示如下图所示。

8.将图片自动下载到本地后的效果图，高清的噢~

9.至此，针对解析出来的图片地址予以批量下载的任务已经完成，接下来自己可以开心的去浏览图片啦。

10.不建议大家爬取太多数据，这样会给服务器增大负载，浅尝辄止即可。

/4小结/

本文基于理论篇，通过Python中的爬虫库requests、lxml、fake_useragent，带大家进行网页结构的分析以及网页图片地址数据的提取，并且针对解析出来的图片地址予以批量下载，方法行之有效，欢迎大家积极尝试。

如果需要本文源码的话，请在公众号【Python爬虫与数据挖掘】后台回复“高清图片”四个字进行获取，觉得不错，记得给个star噢。

往期精彩文章推荐：

手把手用Python教你如何发现隐藏wifi手把手教你用Python做个可视化的“剪刀石头布”小游戏手把手教你使用Python批量创建复工证明想学习更多Python网络爬虫与数据挖掘知识，可前往专业网站：http://pdcfighting.com/

好了，本文到此结束，如果可以帮助到大家，还望关注本站哦！

2020最新自助免费申请Office365教育版，免费5TOneDrive云盘详细图文教程