区域门户网站源码分享,企业门户网站源码

其实区域门户网站源码分享的问题并不复杂,但是又很多的朋友都不太了解企业门户网站源码,因此呢,今天小编就来为大家分享区域门户网站源码分享的一些知识,希望可以帮助到大家,下面我们一起来看看这个问题的分析吧!

简介:本文介绍使用Python,爬取国家统计局网站区划和城乡划分代码数据,并保存为不同的格式。该功能可为电商等行业规范客户邮寄地址的填写提供帮助。

数据源和格式

行政区划数据取自国家统计局网站(http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/),数据按行政级别由大到下通过链接和纯html文本嵌套呈现。如河北省:

第一级河北省区划代码13,网页地址http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2021/13.html第二级石家庄市区划代码1301,网页地址http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2021/13/1301.html第三级长安区区划代码130102,网页地址http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2021/13/01/130102.html第四级建北街道区划代码130102001,网页地址http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2021/13/01/02/130102001.html第五级棉一东社区居民委员会区划代码130102001001

获取顶级区域(省/直辖市/自治区,不含港澳台)的地址是http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2021/index.html。其中的“2021”代表数据时间版本。

区划代码格式定义参见“民政部行政区划规则(https://www.mca.gov.cn/article/sj/xzqh/1980/)”。

爬取目标

通过Python分析网页,从顶级区域自动识别各级子区域代码和名称,并保存为不同的数据格式,以供其他业务进一步使用。本Python程序可将爬取后的数据另存为

html表格文件Excel格式文件sql格式文件json格式文件

数据格式文件

以河北省为例:文件名中的13是河北省区划代码;文件中ID是自定义的数据主键,2021是数据版本号。

html表格文件,文件名address_model_13.html

Excel格式文件:文件名address_model_13.xlsx

sql格式文件:文件名address_model_13.sql

json格式文件:文件名address_model_13.json。json格式文件是按行政区域的级联形式,不带ID和版本号字段。

使用说明

Python需要本版3.5以上,且要安装requests,pandas,BeautifulSoup库

程序可在命令行直接运行:

pythonAddressUtil.py

参数在程序中设置,分别是

province:顶级区域代码,province=0时获取顶级区域数据,可用于测试,减少获取数据等待的时间out_format:输出格式

参数取值见源程序

程序运行时会打印获取的区域进度和异常

出现“requesttimeout”时说明由于网络问题未获取网页需要重试。本程序设置了三次重试,如三次重试仍未获取,则程序退出,请检查你的网络连接和统计局网站是否有问题。

结束语

区划代码数据的使用,引用统计局网站原文——“统计用区划代码和城乡划分代码用于统计工作,需要在其他工作中使用时,请务必结合有关实际情况。”

本文涉及的Python程序和数据样例可从百度网盘下载

https://pan.baidu.com/s/1Jhd_4NPn12WtteOW3IP3AA?pwd=1234提取码:1234

特别声明:本人保留源程序版权,源程序可供任何人自由使用(包括商业行为),本人不对使用本程序的后果承担任何责任。使用时请标注或保留原作者名:双鱼菜青虫(今日头条账号)。

关于区域门户网站源码分享,企业门户网站源码的介绍到此结束,希望对大家有所帮助。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平