点评网站源码分享 评测网站源码

本篇文章给大家谈谈点评网站源码分享,以及评测网站源码对应的知识点,文章可能有点长,但是希望大家可以阅读完,增长自己的知识,最重要的是希望对各位有所帮助,可以解决了您的问题,不要忘了收藏本站喔。

之前我水平有限,对于淘宝评论这种动态网页,由于数据在网页源码中是找不到的,所以无法抓取数据,只能使用selenium模仿人操控浏览器来抓数据,

优点是可见容易且不宜被淘宝公司封锁;缺点是速度太慢。

经过今天一天的钻研,终于学会分析数据包,而且淘宝评论的数据包都是以json格式传输的。除了学会抓包,还要会从json中提取出想要的评论数据才行。

有需要Python学习资料的小伙伴吗?小编整理【一套Python资料、源码和PDF】,感兴趣者可以关注小编后私信学习资料(是关注后私信哦)反正闲着也是闲着呢,不如学点东西啦

本文实现难点:

一、分析数据包,找到淘宝评论传输用的网址,分析网址特点

二、如何从找到的数据包中,从json格式内容中得到想要的数据

案例

https://detail.tmall.com/item.htm?id=38975978198&ali_refid=a3_430582_1006:1106461044:N:%E7%94%B5%E5%8A%A8%E7%89%99%E5%88%B7:bfee1d767fa0a91e5e853b29d794c6f2&ali_trackid=1_bfee1d767fa0a91e5e853b29d794c6f2&spm=a230r.1.14.1.R0FzCm\n

打开该网址,点击评论

如图中红色圈中的评论,分析发现,在网页源码中查找不到。

找啊找,找啊找,圈中的评论就是不在网页源码中。那只有一种可能,在我们看不到的方式传送。

用火狐浏览器,打开开发者工具,点击网络

真的找到了啊

那么接下来我们要知道这个包传递信息的网址

点击消息头,红方框中的请求网址就是这个评论数据包传递的网址

网址如下

https://rate.tmall.com/list_detail_rate.htm?itemId=38975978198&spuId=279689783&sellerId=92889104&order=3&currentPage=1&append=0&content=1&tagId=&posi=&picture=&ua=250UW5TcyMNYQwiAiwTR3tCf0J/QnhEcUpkMmQ=|Um5Ockt+RH9FfEZ6QXpEcCY=|U2xMHDJ+H2QJZwBxX39RaVV7W3UyWzAeSB4=|VGhXd1llXGlTaFJrUW1WbVNnUG1PdkN7TnBNeUxzR3pFeEB/QG44|VWldfS0TMwc4BycbIwMtBn0AbSJNNl87ZBVaMRo6FEIU|VmhIGCIWNgsrFy4XKgo0ATkDIx8mHyICNgs2FioUIBo6DjMOWA4=|V25OHjBVPF07RT5XLgAgFCEUNAgxCDQULRAoHUsd|WGFBET8RMQ02Di4SKhIvDzQJNAoxZzE=|WWBAED5bMlM1SzBZIA4uGy4VNQkxCzISJhwjGCN1Iw==|WmNDEz1YMVA2SDNaIw0tES0QLw8zCzIIKBwmHCMWQBY=|W2JCEjxZMFE3STJbIgwsEicbOwc+AToaJhoiFi0RRxE=|XGVFFTteN1YwTjVcJQsrEisePgI8CDERLRkmEiseSB4=|XWREFDpbJksuYgZvFXUwWjhVPkNtTXZKclJuUWhUdEt2SXRAfCp8|XmdHFzkXNws3Az4eIh4rFDQLNg8xBThuOA==|X2ZGFjgWNgkxDy8TKh8hAT4DOAY9B1EH|QHlZCSdMK09uA3IPdB0zEy8TLRMzDzAFORkmGyAUKx5IHg==|QXlZCSdCK0osUilAORc3Z1ltVHRIdk96LAwxET8RMQ4wBTAOO207|QnpaCiQKKnpDeUFhXWFZYUF4RH1dYVt7R3hNbVFqPBwhAS8BIRgnEywRLHos|Q3pHelpnR3hYZF1hQX9HfV1kRHhFZVFxRGRefkVlXX1EZFp6RWVZeU1tWA4=&isg=Anl5FLTxBcTYINlX61XKverNieN0fW04cSauNZurS6AfIpO049emCPMw0pst&needFold=0&_ksTS=1487675147352_694&callback=jsonp695\n

看起来网址太长,太复杂(稍安勿躁),那么先复制网址,在浏览器上打开看看是什么东西

复杂的网址中,有些乱七八糟的可以删除,有意义的部分保留。切记删除一小部分后先尝试能不能打开网页,如果成功再删减,直到不能删减。最后保留下来的网址,如下

https://rate.tmall.com/list_detail_rate.htm?itemId=38975978198&spuId=279689783&sellerId=92889104&order=3&callback=jsonp698&currentPage=1\n

currentPage=1意思是当前页码是第一页。如果改动为currentPage=3表示是第三页。

好了,下面是代码

importrequests\nimportjson\nimportsimplejson\nheaders={\n’Connection’:’keep-alive’,\n’User-Agent’:’Mozilla/5.0(Macintosh;IntelMacOSX10.12;rv:51.0)Gecko/20100101Firefox/51.0’\n}\nbase_url=’https://rate.tmall.com/list_detail_rate.htm?itemId=38975978198&’\\\n’spuId=279689783&sellerId=92889104&order=3&callback=jsonp698’\n将响应内容的文本取出\ntb_req=requests.get(base_url,headers=headers).text[12:-1]\n编码:将字典内容转化为json格式对象\ntb_json=json.dumps(tb_dict,indent=2)解码:将json格式字符串转化为python对象\nreview_j=json.loads(tb_json)\n在base_url后面添加&currentPage=1就可以访问不同页码的评论\nforiinrange(2,98,1):\nurl=base_url+’&currentPage=%s’%str(i)\n将str格式的文本格式化为字典\ntb_dict=simplejson.loads(tb_req)\nindent参数为缩紧,这样打印出来是树形json结构,方便直观\nprint(tb_json)\n#解码:将json格式字符串转化为python对象\nreview_j=json.loads(tb_json)\nforpinrange(1,20,1):\nprint(review_j[“rateDetail”][“rateList”][p][‘rateContent’])\ntime.sleep(1)\n

有需要Python学习资料的小伙伴吗?小编整理【一套Python资料、源码和PDF】,感兴趣者可以关注小编后私信学习资料(是关注后私信哦)反正闲着也是闲着呢,不如学点东西啦

关于本次点评网站源码分享和评测网站源码的问题分享到这里就结束了,如果解决了您的问题,我们非常高兴。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平