在影视网站源码分享自动采集(最新自动采集影视源码)

大家好,关于在影视网站源码分享自动采集很多朋友都还不太明白,今天小编就来为大家分享关于最新自动采集影视源码的知识,希望对各位有所帮助!

本文概要

前言:

本文非常浅显易懂,可以说是零基础也可快速掌握。如有疑问,欢迎留言,笔者会第一时间回复。本文代码存于github

想要学习Python。关注小编头条号,私信【学习资料】,即可免费领取一整套系统的板Python学习教程!

一、爬虫的重要性:

如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,一直循环下去,直到把整个网站所有的网页都抓取完为止。

摘取部分网友的回复:

1、之前在北京买房,谁想房价开始疯长,链家的房价等数据分析只给了一小部分,远远不能满足自己的需求。于是晚上花了几个小时的时间写了个爬虫,爬下了北京所有的小区信息及北京所有小区的所有历史成交记录。

2、我的爱人是某网络公司的销售,需要收集各种企业信息然后打电话联系。于是乎利用采集脚本抓一坨一坨的资料给她用,而她的同事天天自己搜资料整理到半夜。

3d技术

二、实践:爬取电影天堂电影详情页

1、网页分析及爬取第一页的详情页url

从电影天堂最新电影界面。可以看到其第一页url为http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html

,第二页为http://www.ygdy8.net/html/gndy/dyzz/list_23_2.html,第三第四页也类似

fromlxmlimportetree\nimportrequests\nurl=’http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html’\nheaders={\n’User_Agent’:’Mozilla/5.0(Macintosh;IntelMacOSX10_13_6)AppleWebKit/537.36(KHTML,likeGecko)Chrome/69.0.3497.100Safari/537.36′,\n}\nresponse=requests.get(url,headers=headers)\nprint(response.text)\n加上域名即为详情url\n

结果如下:

image.png

2、整理代码并爬取前7页的电影列表url

fromlxmlimportetree\nimportrequests\nurl=’http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html’\nHEADERS={\n’User_Agent’:’Mozilla/5.0(Macintosh;IntelMacOSX10_13_6)AppleWebKit/537.36(KHTML,likeGecko)Chrome/69.0.3497.100Safari/537.36′,\n}\ndefspider():\nbase_url=’http://www.ygdy8.net/html/gndy/dyzz/list_23_{}.html’\nforxinrange(1,8):\nurl=base_url.format(x)\nprint(url)response.text是系统自己默认判断。但很遗憾判断错误,导致乱码出现。我们可以采取另外方式response.content。自己指定格式解码\nprint(response.content.decode(‘gbk’))\n通过xpath拿到每个电影的详情url\nhtml=etree.HTML(text)\ndetail_urls=html.xpath(“//table[@class=’tbspan’]//a/@href”)\ndetail_urls=map(lambdaurl:BASE_DOMAIN+url,detail_urls)defabc(url):\nindex=1\ndetail_url=abc(detail_url)\nindex+1\nreturndetail_urls\n

4、抓取电影详情页的数据

获取详情页title

title=html.xpath(“//div[@class=’title_all’]//font[@color=’本行47行,下面已修改\nprint(title)\nforxintitle:\n我们是为了取得文字,所以修改47行\ntitle=html.xpath(“//div[@class=’title_all’]//font[@color=’求出共同的顶级容器,方便后面求职\nimgs=zoomE.xpath(“.//img/@src”)print(cover)\nmovie[‘cover’]=cover\ninfos=zoomE.xpath(“.//text()”)\nforindex,infoinenumerate(infos):\nifinfo.startswith(‘◎年代’):\ninfo=info.replace(“◎年代”,””).strip()info=info.replace(“◎主演”,””).strip()\n从演员infos开始遍历,求出每一个演员\nactor=infos[x].strip()\nifactor.startswith(“◎”):info=info.replace(‘◎简介’,””).strip()\nforxinrange(index+1,len(infos)):\nifinfos[x].startswith(“◎获奖情况”):\nbreak\nprofile=infos[x].strip()\nmovie[‘profile’]=profile\ninfo=info.replace(“◎获奖情况”,””).strip()\nforxinrange(index+1,len(infos)):\nifinfos[x].startswith(“【下载地址】”):\nbreak\naward=infos[x].strip()\nawards.append(award)\nmovie[‘awards’]=awards\nfdfddf’]/a/@href”)[0]\nmovie[‘download_url’]=download_url\nreturnmovie\n

上述代码爬取了电影的每一个数据。为了让读者方便对照格式,笔者已经下载了写此篇文章时的html——”movie.html”,放于github

最后结果:

前7页结果

想要学习Python。关注小编头条号,私信【学习资料】,即可免费领取一整套系统的板Python学习教程!

好了,文章到此结束,希望可以帮助到大家。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平