大家好,关于各大影视网站源码分享很多朋友都还不太明白,今天小编就来为大家分享关于2021独家影视源码的知识,希望对各位有所帮助!
豆瓣电影、书籍、小组、相册、东西等爬虫。
代码地址:私信发送:“豆瓣爬虫”,系统自动回复下载地址。文章里面不能放下载地址,只能这样。
依赖包
pipinstallscrapy
pipinstallpybloom
pipinstallpymongo
运行豆瓣相册爬虫
进入douban/album目录
执行scrapycrawlalbum
主要代码展示:
1类型
12runtime=Field()
13stars=Field()平均分
16vote=Field()看过
19wish=Field()短评数
21question=Field()影评数
23discussion=Field()图片数
25countries=Field()豆瓣相册文档格式
30AlbumItem=dict(
31from_url=”http://www.douban.com/photos/album/135640217/”,
32album_name=”少年听雨歌楼上,壮年画雨客舟中”,
33author=dict(
34home_page=”http://www.douban.com/people/isotherm/”,
35nickname=”等温线”,
36avatar=”http://img3.douban.com/icon/u2152074-7.jpg”,
37),
38photos=[
39dict(
40large_img_url=”http://img3.douban.com/view/photo/photo/public/p2192138220.jpg”,
41like_count=2,
42recommend_count=22,
43desc=”李子哒粉蒸排骨!好吃!”,
44comments=[
45dict(
46avatar=”http://img3.douban.com/icon/u42419518-2.jpg”,
47nickname=”muse”,
48post_datetime=”2014-07-2908:37:14″,
49content=”看得流口水了”,
50home_page=”http://www.douban.com/people/yijuns89/”,
51),
52]
53),
54],
55tags=[“美女”,”标签”,”时尚”],
56recommend_total=67,
57like_total=506,
58create_date=”2014-07-21″,
59photo_count=201,
60follow_count=37,
61desc=”蛇蛇蛇马马马”,
62)
63
64classAlbumItem(Item):
65album_name=Field()
66author=Field()
67photos=Field()
68recommend_total=Field()
69like_total=Field()
70create_date=Field()
71from_url=Field()
72photo_count=Field()
73follow_count=Field()
74desc=Field()
75tags=Field()
76
77
78classPhotoItem(Item):
79large_img_url=Field()
80like_count=Field()
81recommend_count=Field()
82desc=Field()
相册详情
18Rule(LinkExtractor(allow=r”^http://www\\.douban\\.com/photos/album/\\d+/($|\\?start=\\d+)”),
19callback=”parse_album”,
20follow=True
21),
22
23豆列集合
30follow=True
32单个豆列
35Rule(LinkExtractor(allow=r”^http://www\\.douban\\.com/doulist/\\d+/$”),
36follow=True
37),
38)
39
40defparse_album(self,response):
41album_parser=AlbumParser(response)
42item=dict(album_parser.item)
43
44ifalbum_parser.next_page:returnNone
45spec=dict(from_url=item[“from_url”])
46doubanDB.album.update(spec,{“$set”:item},upsert=True)
47
48defparse_photo(self,response):
49single=SinglePhotoParser(response)
50from_url=single.from_url
51iffrom_urlisNone:return
52doc=doubanDB.album.find_one({“from_url”:from_url},{“from_url”:True})
53
54item=dict(single.item)
55ifnotdoc:
56new_item={}
57new_item[“from_url”]=from_url
58new_item[“photos”]=item
59doubanDB.album.save(new_item)
60else:
61spec={“from_url”:from_url}
62doc=doubanDB.album.find_one({“photos.large_img_url”:item[“large_img_url”]})
63ifnotdoc:
64doubanDB.album.update(spec,{“$push”:{“photos”:item}})
65
66cp=CommentParser(response)
67comments=cp.get_comments()
68ifnotcomments:return
69large_img_url=item[“large_img_url”]
70spec={“photos.large_img_url”:large_img_url}
71doubanDB.album.update(spec,{“$set”:{“photos.$.comments”:comments}},upsert=True)
代码地址:私信发送:“豆瓣爬虫”,系统自动回复下载地址。文章里面不能放下载地址,只能这样。
关于各大影视网站源码分享到此分享完毕,希望能帮助到您。
