软科高校数据获取

2023-06-10 23:42 由这阵风是晚安发表于 #后端开发

软科高校数据获取

主要获取页面五个字段;分别是:校名、地区、管理部门、类别、双一流

在这里有一个坑就是后续的一些院校在类别和双一流这个标签上面都没有这个值,所以使用try...except...来进行判断的话会很慢很慢,如果有解决问题的小伙伴欢迎留言一起探讨解决方案!

这个项目采用的是Selenium自动翻页获取数据,软科这个网站的所有数据都在一个JSON文件里面,但是在抓包的时候会发现有个参数是随机变化的,除非弄明白这个参数是如何生成的否则很难获取到,直接上代码(ps:真的很慢!!!)

import csv
import time
import pandas as pd
from selenium import webdriver
from selenium.common import NoSuchElementException
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
driver.get("http://www.shanghairanking.cn/institution")
# 等待浏览器加载渲染页面
driver.implicitly_wait(2)
# 下拉页面到底部
js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight'
driver.execute_script(js)
college_header = ['校名', '地区', '管理部门', '类别', '双一流']


def get_college_data():
    college_data = []
    divs = driver.find_elements(By.CSS_SELECTOR, ".univ-main")
    for div in divs:
        # 校名
        college_name = div.find_element(By.XPATH, "./div/div[2]/div[1]/span").text
        # 地区
        college_area = div.find_element(By.XPATH, "./div/div[2]/div[3]/span[1]").text
        # 管理部门
        college_section = div.find_element(By.XPATH, "./div/div[2]/div[3]/span[2]").text
        # 类别
        try:
            college_category = div.find_element(By.XPATH, "./div/div[2]/div[3]/span[3]").text
        except NoSuchElementException:
            college_category = "Null"
        # 双一流
        try:
            college_grade = div.find_element(By.XPATH, "./div/div[2]/div[3]/span[4]").text
        except NoSuchElementException:
            college_grade = "Null"
        college_data.append([
            college_name,
            college_area,
            college_section,
            college_category,
            college_grade
        ])
    college_data = pd.DataFrame(columns=college_header, data=college_data)
    return college_data


college_datas = []
for page in range(1,10):
    time.sleep(1)
    print(f"正在获取{page}页!")
    data = get_college_data()
    college_datas.append(data)
    driver.find_element(By.CLASS_NAME, "ant-pagination-next").click()

csv_file = pd.concat(college_datas, ignore_index=True)
csv_file.to_csv('college_data.csv', mode='w', index=False, sep=',')

热门相关：恭喜你被逮捕了最强反套路系统战神重生之至尊千金修仙界最后的单纯

Python Joblib库使用学习总结

## 实践环境 python 3.6.2 Joblib ## 简介 Joblib是一组在Python中提供轻量级流水线的工具。特别是： 1. 函数的透明磁盘缓存和延迟重新计算（记忆模式） 2. 简单易用的并行计算 Joblib已被优化得很快速，很健壮了，特别是在大数据上，并对numpy数组进行了特定 ...阅读全文

C++ 指针

# 一、C++ 指针的算术运算 ## 递增一个指针我们喜欢在程序中使用指针代替数组，因为变量指针可以递增，而数组不能递增，因为数组是一个常量指针。下面的程序递增变量指针，以便顺序访问数组中的每一个元素： ``` 实例 #include using namespace std; const int ...阅读全文

Python潮流周刊#6：Python 3.12 有我贡献的代码！

你好，我是猫哥。这里记录每周值得分享的 Python 及通用技术内容，部分为英文，已在小标题注明。（标题取自其中一则分享，不代表全部内容都是该主题，特此声明。）首发于我的博客，https://pythoncat.top/posts/2023-06-10-weekly6 ## 🦄文章&教程 1、[ ...阅读全文

Collection 接口及其常用方法

Collection 接口没有直接实现类。Collection 实现类（通常通过其中一个子接口间接实现 Collection ）可以存放多个 Object 类型的元素。有些 Collection 接口的实现类可以存放重复的元素，有些则不可以。有些 Collection 接口的实现类是有序的，有些是无... ...阅读全文

【pandas基础】--目录（完结）

pandas 基础内容的目录： 0. [概述](https://www.cnblogs.com/wang_yb/p/17367431.html) `pandas` 主要功能和应用场景的介绍。 1. [数据读取](https://www.cnblogs.com/wang_yb/p/17371731.h ...阅读全文

Python自学指南-第一章-安装运行

# 1.1 【环境】快速安装 Python 与PyCharm “工欲善其事，必先利其器”，为了自学之路的顺利顺利进行。首先需要搭建项目的开发环境。 ## 1. 下载解释器进入 [Python 官网](https://www.python.org/downloads/windows/)，目前 Pyt ...阅读全文

分页查询和条件分页查询

## 分页查询 **分析：** * 分析文档要求 * 查看前端传递给后台的参数 * 分析参数进行编码 * 后台返回给前端的数据 **思路** 浏览器 - > Controller层 - > Service层 - > Mapper层 - > 数据库 ### **设置分页拦截器** ```java @C ...阅读全文

基于MybatisPlus的简单分页查询和条件分页查询

从零玩转系列之微信支付开篇

# 一、前言 halo各位大佬很久没更新了最近在搞微信支付,因商户号审核了我半个月和小程序认证也找了资料并且将商户号和小程序进行关联,至此微信支付Native支付完成.此篇文章过长我将分几个阶段的文章发布(项目源码都有,小程序和PC端) ![](https://qiniu.yby6.com/yby- ...阅读全文

租用游艇

# 租用游艇 ## 题目描述长江游艇俱乐部在长江上设置了 $n$ 个游艇出租站 $1,2,\cdots,n$。游客可在这些游艇出租站租用游艇，并在下游的任何一个游艇出租站归还游艇。游艇出租站 $i$ 到游艇出租站 $j$ 之间的租金为 $r(i,j)$（$1\le i\lt j\le n$）。试设 ...阅读全文