大家好,图书搜索网站源码分享相信很多的网友都不是很明白,包括找图书资源的网站也是一样,不过没有关系,接下来就来为大家分享关于图书搜索网站源码分享和找图书资源的网站的一些知识点,大家可以关注收藏,免得下次来找不到哦,下面我们开始吧!
目标:
对xx网上的书籍信息进行提取并保存为txt格式,标记为(排名,书名,图片地址,作者,推荐指数,五?数量,价格)
步骤:
1、调用requests库,拿到所需要的网页源代码状态码为200表示返回成功
2、对返回的网页源代码进行解析,使用正则表达式获取想要的关键信息(书名,排名,作者等等……),之后封装数据
3、获取1-25页的1000条书籍信息,使用for循环保存在txt文件里面
关键函数和正则表达式编写实现功能:
自定义函数:
1、parse_dandan(url)
2、parse_result(html)
3、write_item_to_file(item)
4、main(page)
pattern=re.compile(&34;(.*?)&34;name&34;(.*?)&34;star&34;tuijian&34;publisher_info&34;_blank&34;biaosheng&34;price_n&39;,re.S)
代码实现:
&39;&39;&39;&39;\nimportrequests\nimportre\nimportjson\n&39;&39;&39;\ndefrequest_dandan(url):\ntry:\nresp=requests.get(url)\nifresp.status_code==200:\nreturnresp.text\nexceptrequests.requestException:\nreturnNone\n&39;&39;&39;\n\ndefparse_result(html):\npattern=re.compile(&34;(.*?)&34;name&34;(.*?)&34;star&34;tuijian&34;publisher_info&34;_blank&34;biaosheng&34;price_n&39;,re.S)\nitems=re.findall(pattern,html)\nforiteminitems:\nyield{\n&39;:item[0],\n&39;:item[1],\n&39;:item[2],\n&39;:item[3],\n&39;:item[4],\n&39;:item[5],\n&39;:item[6]\n}\n&39;&39;&39;\ndefwrite_item_to_file(item):\nprint(&39;+str(item))\nwithopen(&39;,&39;,encoding=&39;)asf:\nf.write(json.dumps(item,ensure_ascii=False)+&39;)\n\nf.close()\n&39;&39;&39;\n\ndefmain(page):\nurl=&39;+str(page)\nhtml=request_dandan(url)\nitems=parse_result(html)39;&39;\n获取1-25页的1000条数据使用for循环\n&39;&34;__main__”:\nforiinrange(1,26):\nmain(i)\n\n\n\n
运行结果如下:
关注我,让我们一起学习python爬虫,加油
好了,文章到这里就结束啦,如果本次分享的图书搜索网站源码分享和找图书资源的网站问题对您有所帮助,还望关注下本站哦!
