爬取行政区划代码

2024-02-27 18:37 由 bigroc 发表于 #后端开发

爬取国家统计局统计用区划代码和城乡划分代码 2023 版

python 实现

一、打开国家统计局官网

https://www.stats.gov.cn/sj/tjbz/qhdm/

二、分析每一级URL找到规律

省级:https://www.stats.gov.cn/sj/tjbz/tjyqhdmhcxhfdm/2023/index.html
地市级：https://www.stats.gov.cn/sj/tjbz/tjyqhdmhcxhfdm/2023/61.html 61为陕西编码
区县级：https://www.stats.gov.cn/sj/tjbz/tjyqhdmhcxhfdm/2023/61/6101.html

找到规律当前路径+href 路径即可跳入下一级

打码

import json
import time

import requests
from bs4 import BeautifulSoup

main_url = "https://www.stats.gov.cn/sj/tjbz/tjyqhdmhcxhfdm/2023"


class area_code:
    name = ""
    code = ""
    url = ""
    child = []
    urban_rural_type = 0
    lng = 0
    lat = 0

    def __init__(self, name, code, url, child, urban_rural_type=0):
        self.name = name
        self.code = code
        self.url = url
        self.child = child
        self.urban_rural_type = urban_rural_type
        self.lng = 0
        self.lat = 0


# 爬取全国统计用区划代码和城乡划分代码
# pip install beautifulsoup4
def get_code(suffix_url="index.html"):
    _province_url = "{}/{}".format(main_url, suffix_url)
    response = requests.get(_province_url)
    response.encoding = "utf-8"
    _html = response.text
    _soup = BeautifulSoup(_html, "html.parser")
    _province_code = {}
    for a in _soup.find_all("a"):
        if a.get("href") and a.get("href").endswith(".html"):
            _province_code[a.text] = a.get("href")
    return _province_code


def get_child_code(_url, _parent_url=None, _retry=3):
    """
    输出 [{name:"呼和浩特市", code:"150100000000", url:"15/1501.html"},{name:"包头市", code:"150200000000", url:"15/1502.html"}]
    :param _parent_url: 父级url
    :param _retry: 重试次数
    :param _url: 当前url
    :return:
    """
    _city_code = []
    if _parent_url is not None and len(_parent_url) > 0:
        # 截取最后一个"/"之前的字符串
        _parent_path = _parent_url.rsplit("/", 1)[0]
        _req_url = "{}/{}".format(_parent_path, _url)
    else:
        _req_url = "{}/{}".format(main_url, _url)
    try:
        response = requests.get(_req_url)
    except Exception as e:
        if _retry > 0:
            time.sleep(1)
            print("请求出错：{},第{}次重试".format(e, 4 - _retry))
            return get_child_code(_url, _parent_url, _retry - 1)
        else:
            raise e
    response.encoding = "utf-8"
    _html = response.text
    _soup = BeautifulSoup(_html, "html.parser")

    # class_="citytr" or class_="towntr" or class_="countytr" or class_="villagetr"
    for tr in _soup.find_all("tr", class_=["citytr", "towntr", "countytr"]):
        _tds = tr.find_all("td")
        print("开始处理 - {}".format(_tds[1].text))
        _child_url = ""
        if _tds[0].find("a") is not None and _tds[0].find("a").get("href") is not None:
            _child_url = _tds[0].find("a").get("href")
            if _child_url.endswith(".html"):
                _child = get_child_code(_child_url, _req_url)
                _city_code.append(area_code(_tds[1].text, _tds[0].text, _child_url, _child))
        else:
            _city_code.append(area_code(_tds[1].text, _tds[0].text, _child_url, []))
    for tr in _soup.find_all("tr", class_=["villagetr"]):
        _tds = tr.find_all("td")
        code = _tds[0].text
        urban_rural_type = _tds[1].text
        name = _tds[2].text
        _city_code.append(area_code(name, code, "", [], urban_rural_type))
    return _city_code


def get_province_list():
    """
    # 获取省份、直辖市、自治区代码
    :return:
    """
    province_map = get_code()
    _province_list = []
    for _name, _url in province_map.items():
        _province_list.append(area_code(_name, _url.split(".")[0], _url, []))
    return _province_list


if __name__ == '__main__':
    province_list = get_province_list()
    # 获取市级代码
    for province in province_list:
        print("开始处理 - {}".format(province.name))
        city_code = get_child_code(province.url)
        province.child = city_code
    # 输出到文件json
    with open("area_code.json", "w", encoding="utf-8") as f:
        f.write(json.dumps(province_list, default=lambda obj: obj.__dict__, ensure_ascii=False))

缺陷

json格式太大了，建议直接入库或者生成cvs
不支持退出续爬，后续完善....

热门相关：1号婚令：早安，大总裁！明朝败家子奈何老公太宠我最牛兵王重开地狱

Redis加Lua脚本实现分布式锁

先讲一下为什么使用分布式锁：在传统的单体应用中，我们可以使用Java并发处理相关的API（如ReentrantLock或synchronized）来实现对共享资源的互斥控制，确保在高并发情况下同一时间只有一个线程能够执行特定方法。然而，随着业务的发展，单体应用逐渐演化为分布式系统，多线程、多进程分 ...阅读全文

C++类开发第四篇（讲清楚重载运算符怎么用）

operator 运算符重载，就是对已有的运算符重新进行定义，赋予其另一种功能，以适应不同的数据类型。在c++中，可以定义一个处理类的新运算符。这种定义很像一个普通的函数定义，只是函数的名字由关键字operator及其紧跟的运算符组成。差别仅此而已。它像任何其他函数一样也是一个函数，当编译器遇到适 ...阅读全文

如何创建自己的Spring Boot Starter并为其编写单元测试

当我们想要封装一些自定义功能给别人使用的时候，创建Spring Boot Starter的形式是最好的实现方式。如果您还不会构建自己的Spring Boot Starter的话，本文将带你一起创建一个自己的Spring Boot Starter。快速入门创建一个新的 Maven 项目。第三方封装 ...阅读全文

python 的深浅拷贝

python 的深浅拷贝在Python中，深拷贝（deep copy）和浅拷贝（shallow copy）是用于复制数据结构（如列表或字典）的两种不同方式，它们有以下区别：浅拷贝（Shallow Copy）：浅拷贝创建一个新的对象，然后将原始对象中的元素（如果是可变对象）复制到新对象中。但是， ...阅读全文

python中的列表和元组有什么区别

python中的列表和元组有什么区别在Python中，列表（List）和元组（Tuple）都是用来存储一组有序元素的数据结构，它们之间有几个重要的区别：可变性：列表是可变的（Mutable），意味着你可以改变列表中的元素，包括添加、删除、修改元素。元组是不可变的（Immutable），一旦创 ...阅读全文

Rust 无畏并发

本文在原文基础上有删减，原文链接无畏并发。目录使用线程同时运行代码使用 spawn 创建新线程使用 join 等待所有线程结束将 move 闭包与线程一同使用使用消息传递在线程间传送数据信道与所有权转移发送多个值并观察接收者的等待通过克隆发送者来创建多个生产者共享状态并发互斥器一次只允许一个线程 ...阅读全文

【进阶篇】使用 Redis 实现分布式缓存的全过程思考（一）

在笔者近 3 年的 Java 一线开发经历中，尤其是一些移动端、用户量大的互联网项目，经常会使用到 Redis 分布式缓存作为解决高并发的基本工具。但在使用过程中也有一些潜在的问题是必须要考虑的，比如：数据一致性、缓存穿透和雪崩、高可用集群等等。 ...阅读全文

解析Spring中的循环依赖问题：初探三级缓存

在文章中详细探讨了循环依赖问题及其解决思路分析，揭示了Spring所提供的Bean创建过程并非如我们所想象的那样简单。这一过程涉及众多复杂步骤，因此Spring引入了缓存机制，通过在后续阶段逐步维护堆中的初始对象，并逐步进行赋值来逐步完成Bean的创建。这种缓慢而谨慎的方式确保了Bean的正确创建。 ...阅读全文

【工具】用nvm管理nodejs版本切换，真香！

nvm 一个nodejs版本管理工具！ 1. nvm介绍 2. nvm下载 3. nvm安装 4. nvm常用命令 nvm使用简单的命令下载长期稳定支持版本的 Node.js nvm使用简单的命令实现 Node.js 的多个版本之间轻松切换 ...阅读全文

SpringCloud和SpringBoot的版本依赖该怎么选择

Spring Cloud是一个基于Spring Boot的微服务框架，用于构建和管理分布式系统的各个组件。它提供了一套完整的解决方案，包括服务注册与发现、配置管理、负载均衡、熔断器等。 ...阅读全文