本篇文章给大家谈谈爬虫能爬网站后台源码分享吗,以及爬虫可以爬取哪些网站对应的知识点,文章可能有点长,但是希望大家可以阅读完,增长自己的知识,最重要的是希望对各位有所帮助,可以解决了您的问题,不要忘了收藏本站喔。
我们把爬虫已经写好了,而且在本地可以运行了。
这个不是最终的目的啊。
我们是要在服务器上运行爬虫。
真正的:云爬虫!云爬虫!云爬虫!
腾讯服务器,阿里云服务器都可以
就在这里再来一篇手把手的将爬虫部署到服务器上吧。
绝对从0教学。
一步一步的来,还有截图
让你从『倔强青铜』杀到『最强王者』
福利就要写在最前面:
过大年了,大家是不是又有了压岁钱了啊??啊哈哈哈哈,压岁钱买糖吃还不如投资到自己身上。比如用来买课程,或者用来买服务器,来学习编程,写爬虫。来买服务器啊买服务器啊!只在本地跑,根本没用的!恰巧,铲屎官这里就有上千元的阿里云和腾讯云的优惠券给你使用(每一款优惠只要点击优惠链接,进入即可领取):
阿里云部分:
【阿里云新人1888元云产品通用代金券】:
https://promotion.aliyun.com/ntms/yunparter/invite.html?userCode=nrkmbo9q
【阿里云爆款云主机,2折优惠券】:
https://promotion.aliyun.com/ntms/act/qwbk.html?userCode=nrkmbo9q
【阿里云企业级服务器2折优惠券】:
https://promotion.aliyun.com/ntms/act/enterprise-discount.html?userCode=nrkmbo9q
腾讯云:
【新客户无门槛领取总价值高达2775元代金券,每种代金券限量500张,先到先得】:
https://cloud.tencent.com/redirect.php?redirect=1025&cps_key=b351b2fc50b15866ff9d19b58a5df0f5&from=console
【腾讯云服务器、云数据库特惠,3折优惠券】:
https://cloud.tencent.com/redirect.php?redirect=1014&cps_key=b351b2fc50b15866ff9d19b58a5df0f5&from=console
–接下来是正文–
大家好,我是铲屎官,为啥要写这篇文章,就是为了让你上『最强王者』!Scrapy的文章,好多好多,但是99%的文章都是,写完爬虫就完事儿了,至于后来怎么用?去哪里用?都没有交带。我这里就交代一种,可以把你的小虫子部署到服务器上!但是怎么部署,当你去百度查『scrapy爬虫部署』的时候,有几篇文章说,用Scrapyd,但是,他们都只是简单的,在windows机器上部署,而且都是部署到本地。对于想要大展宏图的你,根本没有帮助,那么,就让我来做这个引路人,带你一步一步的,将Scrapy爬虫,通过Scrapyd来部署到远端的腾讯云服务器上吧!同理,阿里云服务器也是可以的,我在两种服务器上面都部署了爬虫
貌似大家对爬虫还是很跟兴趣的。之前铲屎官写的几篇爬虫文章,大家可以自行在网上搜索。都反响不错,充分的激起了大家学习Python,运用Python的热情。感觉Python不在是那么的死板,不再是像教科书上的说明,是实实在在的可以在平时运用,编写的程序语言。所以,这篇我们就稍微进阶一下:
将我们的爬虫部署到腾讯云服务器上面(阿里云服务器同理)。废话不多说,我们就来实战操作吧。
这里选择什么云服务都是可以的,阿里云,AWS,腾讯云,其他云都是没有问题的。部署方法基本一样,这里为了方便,所以笔者选择了腾讯云来做讲解。
既然我们选择了腾讯云,首先去腾讯云的官网,注册登录一下。
https://cloud.tencent.com/\n
当你看到这篇文章的时候,我不知道腾讯云的优惠是怎样的,反正我当时,给我了7天的云服务器体验。我就准备拿这个试试手。腾讯云界面长这个样子:
登录之后,买完服务器之后,在云服务器界面,就会看到你的服务器实例了:
界面上面有你服务器的ip地址,我们远程登录,就需要知道服务器的公网ip地址:
本地我用Mac的terminal的ssh登录,输入指令就是:
$sshroot@1XX.XXX.XXX.XXX\n
然后输入密码,登录成功,就会显示如下界面:
卧槽,可以看到,有3万多次的尝试登录,看来服务器的权限如果设置的不够安全的话,是很容易被别人攻破的。
OK,服务器的东西我们就先暂时放到一边。输入
$exit\n
退出登录。我们先来说说爬虫的事儿。
这里,我们待部署的爬虫,是用Scrapy写的。我们要用到的工具,有Scrapyd和Scrapyd-client。这两个是专门用来部署Scrapy爬虫的东西。OK,既然要部署爬虫,我们就来先看一下我们的爬虫长什么样子。
这里我们部署的爬虫只是我日后项目的一个简单的版本,你可以看『1024种子吞噬』。。。的Scrapy版本。之所以好部署这个,是为了日后在我的公众号『皮爷撸码』里面,加入『代码』自动回复的功能而做准备。以后也会推出这样的文章,敬请期待。好了,现在就简单介绍一下这个待部署的爬虫长什么样子。
工程目录还是很简单的,和标准的Scrapy创建目录一样:
至于工程怎么写,请参考[『“手把手”教你用爬虫爬达盖尔。。。。』]()文章。
我们这期的爬虫项目叫DailyWeb,里面的虫子叫Caolu。爬虫『Caolu』的主要功能,就是从不同的主题区里面,读取当天发布的帖子,然后将这些帖子的url,title,发布时间和id都保存下来,存入数据库中。
想要爬虫源码的同学,请关注『皮爷撸码』,里面有很多爬虫的文章哦。如果有什么疑问,也可以在公众号里面留言,我会一一查看的。
爬虫就是这样,我们部署的任务,目前有两个部分,远端的服务器和我们本地的电脑。我们要把本地电脑的爬虫部署到远端的服务器上,上文中我们提到了两个东西Scrayd和Scrapyd-client这两个东西,分别安装的位置就是远端服务器安Scrapyd,本地需要上传的机器安装Scrapy-client。那么,我们本地机器安装scrapy-client。
$pipisntallscrapy-client\n
安装完成之后,我们需要进入到你Scrapy工程目录下,执行
$scrapyd-deploy-l\n
就会生成一个scrapy.cfg文件。这个文件就是项目的配置文件,里面大概长这个样子:
[settings]\ndefault=DailyWeb.settings\n[deploy]\nyum-ygroupinstall”Developmenttools”\nwgethttps://www.python.org/ftp/python/3.6.2/Python-3.6.2.tar.xz\n//创建安装目录\nyum-yinstallgcc\n//安装Python3.6.2\ncdPython-3.6.2\nmake&&makeinstall\n//安装scrapyd\npip3installscrapy\n//安装scrapyd-client\npip3installbs4\n
安装好之后,运行命令
setsidscrapyd命令来后台开启服务,这样关闭窗口后仍能进行连接。需要结束scrapyd进程时,利用kill-9PID结束进程。
若是想要固定的去执行爬虫,这里可以使用Linux自带的crontab。这个我还没研究,应该不难,等下一步了可以放出来给大家。
OK,到此为止,如果你能跟着我的步骤一步一步做到这里,首先恭喜你,说明你很优秀,很有毅力,绝对是个编程的料,而且还有可能成为Python大神。对于优秀的人而言,奖励是必须的,可以关注『皮克啪的铲屎官』,回复『服务器爬虫』,即可获得爬虫的源码,同时,可以多试试回复几次,说不定有惊喜呢。
最后感言一下,为什么要写这种手把手,一步一步来操作的文章,是因为,好多同学都听说过Python,而且对Pyton抱有期待,想去学。但是,好多同学非科班出身,或者之前就从来没学习过编程,哪像我们这种编程的老油条,拿到一门语言都有自己独特的学习方法能够快速掌握。这些同学就很困惑,因为大家都说Python好,Python好学,Python容易,Python简单,Python能干很多事情事情。。。但是当自己面对Python的时候,Python确是一座大山。没有人给他指引道路,没有人告诉他,那片丛林第几棵树和第几棵树之间有通往下一关的道路,导致他们很苦恼,很困惑,从而就会打击学习编程的积极性,就会产生“Python这么简单我都不会,看来我不是学习编程的料”这种负能量的想法。同学!这样想是不对的!学习编程,你要坚持啊!罗马并非一日建成的,任何看似熟练的技能,都是背后日日夜夜反复打磨出来的结果。你如果对Python感兴趣,喜欢学Python,我可以给你带路,我写这种手把手的文章,就是为了给你们引路,让更多的同学来投入到他们热爱的编程学习中,体验编程的快乐。若是你想学习,想改变自己,或者周围有同学想学习编程,请你手动把这篇文章分享出去,我希望,通过有趣的实战Python项目,能够让Python编程不再那么空洞,而且,新手来了可以根据我的步骤一步一步来,感受程序运行起来的快乐。您的分享,就是对我最大的支持。
OK,以上就是这期手把手一步一步将Scrapy爬虫部署到服务器上的教程。
关注这个神奇的公众号,里面会有神奇代码哦
关于本次爬虫能爬网站后台源码分享吗和爬虫可以爬取哪些网站的问题分享到这里就结束了,如果解决了您的问题,我们非常高兴。
