手机电影网站源码分享 好看手机网站源码

大家好,今天来为大家解答手机电影网站源码分享这个问题的一些问题点,包括好看手机网站源码也一样很多人还不知道,因此呢,今天就来为大家分析分析,现在让我们一起来看看吧!如果解决了您的问题,还望您关注下本站哦,谢谢~

前言:

那么什么是爬虫呢?我们把互联网有价值的信息都比喻成大的蜘蛛网,而各个节点就是存放的数据,而蜘蛛网的上蜘蛛比喻成爬虫,而爬虫是可以自动抓取互联网信息的程序,从互联网上抓取一切有价值的信息,并且把站点的html和js返回的图片爬到本地,并且存储方便使用。

实践:爬取电影天堂电影详情页网页分析及爬取第一页的详情页url

从电影天堂最新电影界面。可以看到其第一页url为http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html,第二页为http://www.ygdy8.net/html/gndy/dyzz/list_23_2.html,第三第四页也类似。

fromlxmlimportetree\nimportrequests\nurl=&39;\nheaders={\n&39;:&39;,\n}\nresponse=requests.get(url,headers=headers)\nprint(response.text)\n39;gbk&34;gbk&34;ignore&34;//table[@class=&39;]//a/@href&加上域名即为详情url

结果:

2.整理代码并爬取前7页的电影列表url.

fromlxmlimportetree\nimportrequests\n\n39;http://www.ygdy8.net&url=&39;\n\nHEADERS={\n&39;:&39;,\n}\n\ndefspider():\nbase_url=&39;\nforxinrange(1,8):\nurl=base_url.format(x)\nprint(url)39;__main__&response.text是系统自己默认判断。但很遗憾判断错误,导致乱码出现。我们可以采取另外方式response.content。自己指定格式解码\nprint(response.content.decode(&39;))\n34;gbk&34;ignore&34;gbk&34;ignore&通过xpath拿到每个电影的详情url\nhtml=etree.HTML(text)\ndetail_urls=html.xpath(&39;tbspan&34;)\n\ndetail_urls=map(lambdaurl:BASE_DOMAIN+url,detail_urls)defabc(url):\nindex=1\ndetail_url=abc(detail_url)\nindex+1\n\nreturndetail_urls

4.抓取电影详情页的数据

39;gbk&39;ignore&title=html.xpath(&39;title_all&39;39;]&本行47行,下面已修改\n\nprint(title)\n\nforxintitle:\n39;utf-8&39;utf-8&我们是为了取得文字,所以修改47行\ntitle=html.xpath(&39;title_all&39;39;]/text()&39;title&34;//div[@id=&39;]&求出共同的顶级容器,方便后面求职\nimgs=zoomE.xpath(&34;)39;screenshot&print(cover)\nmovie[&39;]=cover\n\ninfos=zoomE.xpath(&34;)\n\nforindex,infoinenumerate(infos):\nifinfo.startswith(&39;):\ninfo=info.replace(&34;,&34;).strip()39;year&34;◎产地&34;◎产地&34;&34;country&34;◎类别&34;◎类别&34;&34;category&34;◎豆瓣评分&34;◎豆瓣评分&34;&34;douban_rating&34;◎片长&34;◎片长&34;&34;duration&34;◎导演&34;◎导演&34;&34;director&34;◎主演&34;◎主演&34;&因为主演有很多个,再加上其在电影天堂中元素的特殊性,需要遍历一遍,在分别求出每一个演员\nforxinrange(index+1,len(infos)):34;◎&也就是到了标签的◎就退出\nbreak\nactors.append(actor)\nmovie[&39;]=actors\nelifinfo.startswith(&39;):\n\n39;◎简介&34;&34;◎获奖情况&39;profile&print(movie)\nelifinfo.startswith(&39;):\nawards=[]\n34;◎获奖情况&34;&34;【下载地址】&39;awards&print(awards)\n\ndownload_url=html.xpath(&39;39;]/a/@href&39;download_url']=download_url\nreturnmovie

最后结果:

文章到此结束,如果本次分享的手机电影网站源码分享和好看手机网站源码的问题解决了您的问题,那么我们由衷的感到高兴!

Published by

风君子

独自遨游何稽首 揭天掀地慰生平