土巴兔数据爬取

作者：

在

# -*- coding: utf-8 -*-
import scrapy
from tubatu.items import TubatuItem

class TubatuzxSpiderscrapy.Spider):
    name = 'tubatuzx'
    url = 'http://fs.to8to.com/company/list_'
    yeshu = 1
    start_urls = [url + stryeshu) + '.html']
    # -- http://fs.to8to.com/company/list_4.html --

    def parseself, response):
        ss = TubatuItem)
        quan = response.xpath'//ul[@class="company-data-list"]/li')
        # printquan[1])
        # print'-------------------------------------')
        # items = []
        for sj in quan:
            ss = TubatuItem)
            name = sj.xpath'./a/div[2]/p[1]/span/text)').extract)[0]
            ss['name'] = name.strip)
        #     # name = sj.xpath'./li/a/div[2]/p[1]/span/text)').extract)
            if lensj.xpath'./a/div[2]/p[2]/text)').extract)):
                # dianhua = sj.xpath'./li/a/div[2]/p[2]/text)').extract)
                ss['dianhua'] = sj.xpath'./a/div[2]/p[2]/text)').extract)[0]
            else:
                dianhua = ''
                ss['dianhua'] =' '

            # ss['name'] = name[0]
            # ss['dianhua'] = dianhua[0]
            # items.appendss)

            # printname,dianhua)
            # printss)
            yield ss

        if self.yeshu < 4:
            self.yeshu += 1
            url = self.url+strself.yeshu)+'.html'
            print'>>>>>>>>>>>>>>>'+ url + '<<<<<<<<<<')
            yield scrapy.Requesturl,callback=self.parse)

具体代码:https://github.com/mysteriousKiller/tubatu

土巴兔数据爬取

用哪个弄湿

少儿国寿福庆典版优缺点在哪？不足和亮点各参半

狗狗吃卫生巾怎么办

房贷二次扣款会影响征信吗？这是很有可能的

2020最新自助免费申请Office365教育版，免费5TOneDrive云盘详细图文教程

MacBook怎么绕过BootCamp安装Win10双系统

上海电信千兆宽带速度究竟如何上海电信千兆宽带

国内知名的前端博客

域名为什么会被墙如何检测域名是否被墙域名被墙如何处理

土巴兔数据爬取

更多文章

评论

发表回复 取消回复

站内搜索

标签云

热门文章

友情链接

发表回复取消回复