大家好,今天给各位分享学校类网站源码分享下载的一些知识,其中也会对学校网站制作教程进行解释,文章篇幅可能偏长,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在就马上开始吧!
当你开始学习爬虫时,缺少实例,你会怎么做?下面来看看
菜鸟必读,大神绕道。
爬虫介绍:
谷歌浏览器审查元素时按Ctrl+f可以调出搜索框。
目标链接:http://www.zuihaodaxue.com/zuihaodaxuepaiming2020.html
功能描述:
输入大学的url,输出大学信息。
定向爬虫:仅对输入url进行爬虫,不扩展爬取。
目标分析:
看下目标网站,我们所需内容为排名,学校名称,省市,学校类型,总分等
目标网站
查看目标网站源代码,Ctrl+f搜索清华大学,发现学校tbody下,子节点tr囊括的整个学校内容,用td分离学校
网站源码分析
下面来实战
这个爬虫用到requests,BeautifulSoup两个库
为了能高效爬取数据,我们定义了四个函数:
1、getHTMLText获取大学排名网页内容
2、fillUnivList提取网页内容中信息到合适的数据结构
3、printUnivList用于将提取到的有用内容打印出来
其中:该函数用到format,其中{1:{5}^10}中{5},5对应的是排名到总分五项,如果换成4就会报错:tupleindexoutofrange,具体如下
tplt=&34;39;排名&39;学校名称&39;省份&39;学校类型&39;总分&chr(12288)代表中文空格
说了那么多,来看看结果吧
结果展示
以下是源码
源码1
源码2
以上就是本文的全部内容,希望对大家的学习有所帮助
?注:案例来自北京理工大学:嵩天
关于学校类网站源码分享下载的内容到此结束,希望对大家有所帮助。
