在影视网站源码分享自动采集(最新自动采集影视源码)

大家好，关于在影视网站源码分享自动采集很多朋友都还不太明白，今天小编就来为大家分享关于最新自动采集影视源码的知识，希望对各位有所帮助！

本文概要

前言：

本文非常浅显易懂，可以说是零基础也可快速掌握。如有疑问，欢迎留言，笔者会第一时间回复。本文代码存于github

想要学习Python。关注小编头条号，私信【学习资料】，即可免费领取一整套系统的板Python学习教程！

一、爬虫的重要性：

如果把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，一直循环下去，直到把整个网站所有的网页都抓取完为止。

摘取部分网友的回复：

1、之前在北京买房，谁想房价开始疯长，链家的房价等数据分析只给了一小部分，远远不能满足自己的需求。于是晚上花了几个小时的时间写了个爬虫，爬下了北京所有的小区信息及北京所有小区的所有历史成交记录。

2、我的爱人是某网络公司的销售，需要收集各种企业信息然后打电话联系。于是乎利用采集脚本抓一坨一坨的资料给她用，而她的同事天天自己搜资料整理到半夜。

3d技术

二、实践：爬取电影天堂电影详情页

1、网页分析及爬取第一页的详情页url

从电影天堂最新电影界面。可以看到其第一页url为http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html

，第二页为http://www.ygdy8.net/html/gndy/dyzz/list_23_2.html，第三第四页也类似

fromlxmlimportetree\nimportrequests\nurl=’http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html’\nheaders={\n’User_Agent’:’Mozilla/5.0(Macintosh;IntelMacOSX10_13_6)AppleWebKit/537.36(KHTML,likeGecko)Chrome/69.0.3497.100Safari/537.36′,\n}\nresponse=requests.get(url,headers=headers)\nprint(response.text)\n加上域名即为详情url\n

结果如下：

image.png

2、整理代码并爬取前7页的电影列表url

fromlxmlimportetree\nimportrequests\nurl=’http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html’\nHEADERS={\n’User_Agent’:’Mozilla/5.0(Macintosh;IntelMacOSX10_13_6)AppleWebKit/537.36(KHTML,likeGecko)Chrome/69.0.3497.100Safari/537.36′,\n}\ndefspider():\nbase_url=’http://www.ygdy8.net/html/gndy/dyzz/list_23_{}.html’\nforxinrange(1,8):\nurl=base_url.format(x)\nprint(url)response.text是系统自己默认判断。但很遗憾判断错误，导致乱码出现。我们可以采取另外方式response.content。自己指定格式解码\nprint(response.content.decode(‘gbk’))\n通过xpath拿到每个电影的详情url\nhtml=etree.HTML(text)\ndetail_urls=html.xpath(“//table[@class=’tbspan’]//a/@href”)\ndetail_urls=map(lambdaurl:BASE_DOMAIN+url,detail_urls)defabc(url):\nindex=1\ndetail_url=abc(detail_url)\nindex+1\nreturndetail_urls\n

4、抓取电影详情页的数据

获取详情页title

title=html.xpath(“//div[@class=’title_all’]//font[@color=’本行47行，下面已修改\nprint(title)\nforxintitle:\n我们是为了取得文字，所以修改47行\ntitle=html.xpath(“//div[@class=’title_all’]//font[@color=’求出共同的顶级容器，方便后面求职\nimgs=zoomE.xpath(“.//img/@src”)print(cover)\nmovie[‘cover’]=cover\ninfos=zoomE.xpath(“.//text()”)\nforindex,infoinenumerate(infos):\nifinfo.startswith(‘◎年代’):\ninfo=info.replace(“◎年代”,””).strip()info=info.replace(“◎主演”,””).strip()\n从演员infos开始遍历，求出每一个演员\nactor=infos[x].strip()\nifactor.startswith(“◎”):info=info.replace(‘◎简介’,””).strip()\nforxinrange(index+1,len(infos)):\nifinfos[x].startswith(“◎获奖情况”):\nbreak\nprofile=infos[x].strip()\nmovie[‘profile’]=profile\ninfo=info.replace(“◎获奖情况”,””).strip()\nforxinrange(index+1,len(infos)):\nifinfos[x].startswith(“【下载地址】”):\nbreak\naward=infos[x].strip()\nawards.append(award)\nmovie[‘awards’]=awards\nfdfddf’]/a/@href”)[0]\nmovie[‘download_url’]=download_url\nreturnmovie\n

上述代码爬取了电影的每一个数据。为了让读者方便对照格式，笔者已经下载了写此篇文章时的html——”movie.html”，放于github中

最后结果：

前7页结果

想要学习Python。关注小编头条号，私信【学习资料】，即可免费领取一整套系统的板Python学习教程！

好了，文章到此结束，希望可以帮助到大家。

在影视网站源码分享自动采集(最新自动采集影视源码)

Published by

风君子

近期文章

标签

书签