学妹刚毕业那天，我连夜用Python采集了上万份岗位数据，只为给她找一份好工作

2023-11-03 16:40 由轻松学Python 发表于 #后端开发

记得学妹刚毕业那天，为了不让学妹毕业就失业，连夜我就用Python采集了上万份岗位，分析出最合适她的工作。

为此，学妹连夜来我家表示感谢😍

我们开始今天的正题吧

首先要准备这些

软件

Python 3.8
Pycharm

模块使用

requests # 数据请求模块 pip install requests
execjs # 编译js代码模块 pip install PyExecJS
csv 保存表格模块

前两个需要手动安装，win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源)

如何实现爬虫程序

一. 数据来源分析

明确需求: 明确采集的网站以及数据内容
- 网址: https://www.liepin.com/zhaopin/?inputFrom=www_index&workYearCode=0&key=python&scene=input&ckId=z66s3wh10u4fpsartgqu6hpk0uadh1kb&dq=
- 数据: 职位信息
抓包分析: 通过浏览器开发者工具进行抓包分析
- 打开开发者工具: F12
- 刷新网页
- 通过关键字搜索找到对应的数据包
职位数据包: https://api-c.liepin.com/api/com.liepin.searchfront4c.pc-search-job

二. 代码实现步骤

发送请求 -> 模拟浏览器对于url地址发送请求
获取数据 -> 获取服务器返回响应数据
解析数据 -> 提取我们需要的数据内容
保存数据 -> 保存表格文件中

代码解析

发送请求

# 模拟浏览器
headers = {
    'Cookie': '__uuid=1697715537830.29; __tlog=1697715537842.14%7C00000000%7C00000000%7Cs_00_t00%7Cs_00_t00; XSRF-TOKEN=2Uk6ks7eQzClntAW4e3-rg; __gc_id=b3d87325dfce4ed2a845c293e7719666; _ga=GA1.1.511850321.1697715541; acw_tc=2760828916977155414545948ecf12c457b2d8550e00549caffbda5e0ffef1; Hm_lvt_a2647413544f5a04f00da7eee0d5e200=1697715542; __session_seq=3; __uv_seq=3; Hm_lpvt_a2647413544f5a04f00da7eee0d5e200=1697715546; __tlg_event_seq=52; _ga_54YTJKWN86=GS1.1.1697715541.1.1.1697717226.0.0.0',
    'Host': 'api-c.liepin.com',
    'Origin': 'https://www.liepin.com',
    'Referer': 'https://www.liepin.com/',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36',
    'X-Client-Type': 'web',
    'X-Fscp-Bi-Stat': '{"location": "https://www.liepin.com/zhaopin/?inputFrom=www_index&workYearCode=0&key=python&scene=input&ckId=z66s3wh10u4fpsartgqu6hpk0uadh1kb&dq="}',
    'X-Fscp-Fe-Version': '',
    'X-Fscp-Std-Info': '{"client_id": "40108"}',
    'X-Fscp-Trace-Id': '8a1776f0-6366-46c1-88e6-8439dd8e7f2b',
    'X-Fscp-Version': '1.1',
    'X-Requested-With': 'XMLHttpRequest',
    'X-XSRF-TOKEN': '2Uk6ks7eQzClntAW4e3-rg',
}
for page in range(1, 6):
    # 请求链接
    url = 'https://api-c.liepin.com/api/com.liepin.searchfront4c.pc-search-job'
    # 读取js代码文件
    f = open('猎聘.js', mode='r', encoding='utf-8').read()
    # 编译JS代码文件
    js_code = execjs.compile(f)
    # 调用JS函数获取ckId值
    ckId = js_code.call('r', 32)
    print(ckId)
    # 请求参数
    data = {
        "data":
            {
                "mainSearchPcConditionForm":
                    {
                        "city": "410",
                        "dq": "410",
                        "pubTime": "",
                        "currentPage": page,
                        "pageSize": 40,
                        "key": "python",
                        "suggestTag": "",
                        "workYearCode": "0",
                        "compId": "",
                        "compName": "",
                        "compTag": "",
                        "industry": "",
                        "salary": "",
                        "jobKind": "",
                        "compScale": "",
                        "compKind": "",
                        "compStage": "",
                        "eduLevel": ""
                    },
                "passThroughForm":
                    {
                        "ckId": ckId,
                        "fkId": "yng225lwgtfiy60pn8auwftcpe0c304b",
                        "scene": "page",
                        "sfrom": "search_job_pc",
                        "skId": "yng225lwgtfiy60pn8auwftcpe0c304b",
                    }
            }
    }
    # 发送请求
    response = requests.post(url=url, json=data, headers=headers)

获取响应json数据

json_data = response.json()

解析数据, 提取我们需要职位信息

    job_list = json_data['data']['data']['jobCardList']
    # for循环遍历
    for job in job_list:
        # 提取城市信息 1. 上海 2. 上海-浦东新区
        city_info = job['job']['dq'].split('-')  # --> ['上海'] / ['上海', '浦东新区']
        if len(city_info) == 2:
            # 有两个元素说明含有区域
            city = city_info[0]  # 城市
            area = city_info[1]  # 区域
        else:
            city = city_info[0]  # 城市
            area = '未知'  # 区域
        # 薪资
        salary_info = job['job']['salary'].split('·')
        if len(salary_info) == 2:
            salary = salary_info[0]
            year_money = salary_info[-1]
        else:
            salary = salary_info[0]
            year_money = '12薪'
        # 字典取值提取数据内容
        dit = {
            '职位': job['job']['title'],
            '城市': city,
            '区域': area,
            '薪资': salary,
            '年薪': year_money,
            '经验': job['job']['requireWorkYears'],
            '学历': job['job']['requireEduLevel'],
            '公司': job['comp']['compName'],
            '领域': job['comp']['compIndustry'],
            '规模': job['comp']['compScale'],
            '标签': ','.join(job['job']['labels']),
            '公司详情页': job['comp']['link'],
            '职位详情页': job['job']['link'],
        }
        csv_writer.writerow(dit)
        print(dit)

创建文件对象

csv_file = open('data.csv', mode='w', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(csv_file, fieldnames=[
    '职位',
    '城市',
    '区域',
    '薪资',
    '年薪',
    '经验',
    '学历',
    '公司',
    '领域',
    '规模',
    '标签',
    '公司详情页',
    '职位详情页',
])
# 完整代码和视频讲解我都打包好了
# 都放在这个抠裙了 708525271

写入表头

csv_writer.writeheader()

可以看到数据已经获取到，保存在表格里了~

好了，本次分享到这结束了，大家快去试试吧~

热门相关：学霸的黑科技系统我在末世有套房高人竟在我身边神武觉醒帝国远征

浅谈PHP框架中类成员方法的类类型形参是怎么利用ReflectionClass反射类自动实例化的（应该是全网首发）

说明 1. 或许是全网首发，我翻过很多文章，从未有一个博主讲过这个东西，很多博主只讲了IOC、DI和反射机制的常见用法，因类类型形参反射的巧妙用法有相当高的难度和学习盲区，所以从未有人讲过类类型的形参它怎么就被自动实例化的。 2. 在Laravel框架，或者是其它框架中，类的成员方法中形参的类型定义 ...阅读全文

Go语言基准测试(benchmark)三部曲之三：提高篇

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码)：https://github.com/zq2599/blog_demos 本篇概览 -《Go语言基准测试(benchmark)三部曲》已近尾声，经历了《基础篇》和《内存篇》的实战演练，相信您已熟练掌握了基准测试的常规操作以及各种 ...阅读全文

归并排序--排序算法

归并排序和快速排序一样，都是基于分治思想的应用。通过递归，不断将原数列分为两个数列，然后再分别使其有序，最后通过归并将两个有序子数列合并为新的有序数列。 ...阅读全文

支付宝代扣接口签约的各种问题排查（建议收藏）

之前对接支付宝商家扣款的时候，在签约协议的部分卡了很久，今天把之前遇到的签约问题汇总记录一下~ 协议签约流程首先帮大家捋一下签约的顺序，便于直观理解：其次还需要知道的是，支付宝的商家扣款的签约接口有两个：一个是单独签约接口：另一个是支付并签约接口：这两个接口都可以签约，主要区别在于签约的时 ...阅读全文

HashMap源码详解

HashMap简介 HashMap是Java语言中的一种集合类，它实现了Map接口，用于存储Key-Value对。它基于哈希表数据结构，通过计算Key的哈希值来快速定位Value的位置，从而实现高效的插入、删除和查找操作。下面我们对照着JAVA1.8中的HashMap源码来分析一下它的内部实现逻辑 ...阅读全文

数组 vs. 切片

在Go编程语言中处理数据时，经常会遇到数组和切片。这两者是不同的数据结构，有各自的特性和用途。本文将对Go中的数组和切片进行比较，以帮助大家更好地理解它们。 1. 长度不同一个主要的区别是长度。在Go中，数组是具有固定长度的数据结构，一旦创建，其大小不可更改。相比之下，切片具有动态大小，可以在运行 ...阅读全文

JUC并发编程学习（五）集合类不安全

集合类不安全 List不安全单线程情况下集合类和很多其他的类都是安全的，因为同一时间只有一个线程在对他们进行修改，但是如果是多线程情况下，那么集合类就不一定是安全的，可能会出现一条线程正在修改的同时另一条线程启动来对这个集合进行修改，这种情况下就会导致发生并发修改异常(在jdk11的环境下多次测试 ...阅读全文

22 条 Spring Boot 企业级最佳实践，应有尽有，建议收藏！！

Spring Boot 是一种广泛使用且非常流行的企业级高性能框架。以下是一些最佳实践和一些技巧，我们可以使用它们来改进 Spring Boot 应用程序并使其更加高效。这篇文章会有点长，完整读完文章需要一些时间。 1.正确的包目录风格正确的包目录将有助于轻松理解代码和应用程序的流程。我们可以使 ...阅读全文

【scipy 基础】--傅里叶变换

傅里叶变换是一种数学变换，它可以将一个函数或信号转换为另一个函数或信号，它可以将时域信号转换为频域信号，也可以将频域信号转换为时域信号。在很多的领域都有广泛的应用，例如信号处理、通信、图像处理、计算机科学、物理学、生物学等。它最大的功能是能够分析和提取信号的特征，将复杂的信号分解为简单的信号。有人 ...阅读全文

Spring/SpringBoot中的声明式事务和编程式事务源码、区别、优缺点、适用场景、实战

一、前言在现代软件开发中，事务处理是必不可少的一部分。当多个操作需要作为一个整体来执行时，事务可以确保数据的完整性和一致性，并避免出现异常和错误情况。在SpringBoot框架中，我们可以使用声明式事务和编程式事务来管理事务处理。其中事务的坑也是不少，比较常见的就是事务失效，大家可以看看！后面小编 ...阅读全文