爬虫案例2-爬取视频的三种方式之一：selenium篇(2)

2024-09-11 19:48 由 laity17 发表于 #后端开发

前言
selenium简介
实战案例
共勉
博客

前言

继使用requests库爬取好看视频的文章后，本文分享使用python第三方库selenium库接着来爬取视频网站，后续也会接着分享使用第三方库DrissionPage爬取视频。

selenium简介

selenium是一个用于web应用测试的工具集，它可以直接运行在浏览器中，就像真正的用户在操作一样。它主要应用在自动化测试，web爬虫和自动化任务中。selenium提供了很多编程语言的接口，如java，python，c#等。这让开发者可以自己编写脚本来自动化web应用的测试。

实战案例

话不多说，直接上源码

from selenium import webdriver   # 浏览器驱动
from selenium.webdriver.common.by import By  # 用来定位web页面上的元素
import time             # 时间函数
import os               # 文件管理模块
import requests        # 数据请求模块


if not os.path.exists('./videos1'):  # 创建文件夹
    os.mkdir('./videos1')
def video(data):     # 定义请求每个详细视频的函数
    for url in data:   # 遍历每个详细视频的地址
        driver=webdriver.Chrome()   # 初始化浏览器实例
        driver.get(url)               # 打开url页面
        src=driver.find_element(by=By.CLASS_NAME, value='art-video')  # 获取每个详细视频的详细地址
        src=src.get_attribute('src')
        name=driver.find_element(by=By.CLASS_NAME, value='videoinfo-title')  # 获取每个详细视频的标题
        name=name.text
        video_detail=requests.get(src).content     # 对每个详细视频进行请求
        with open('./videos1/'+name+'.mp4','wb') as f:  # 存储视频
            f.write(video_detail)
        print(name,src)
        driver.quit()        # 关闭浏览器
driver=webdriver.Chrome()     # 初始化浏览器实例
driver.get("https://haokan.baidu.com/")  # 打开网址
for i in range(1,6):
    driver.execute_script("document.documentElement.scrollTop=2000")  # 页面下滑
    time.sleep(1)
time.sleep(2)
data_video=driver.find_elements(by=By.CLASS_NAME,value='videoItem_videoitem__Z_x08') # 对视频信息进行定位
data=[]        # 定义空列表，用来存储每个时评的地址
for a in data_video:  # 
    href=a.get_attribute("href")  # 获取视频地址
    data.append(href)
print(data)
time.sleep(2)
driver.quit()   # 关闭浏览器
video(data)   # 调用video()函数

共勉

能力决定下限，机会决定上限

博客

本人是一个渗透爱好者，不时会在微信公众号（laity的渗透测试之路）更新一些实战渗透的实战案例，感兴趣的同学可以关注一下，大家一起进步。
- 之前在公众号发布了一个kali破解WiFi的文章，感兴趣的同学可以去看一下，在b站（up主:laity1717）也发布了相应的教学视频。

关于Java中的类和对象笔记

什么是对象：在现实世界中，随处可见的一种事物就是对象。面向对象的特点：封装性、继承性、多态性 1.1 封装（思想）：对象的属性和行为封装起来，载体即为类。保存类数据结构的完整性，提高了程序的可维护性。 1.2 继承：可以继承父类的行为和属性，其中还可以添加独特的属性及行为。可复用性强，提高系统性能 ...阅读全文

Leetcode 2453. Destroy Sequential Targets | rust 实现

题解问题描述给定一个整数数组 nums 和一个整数 space，我们需要找到一个目标值，使得该目标值在 nums 中的出现次数最多。如果有多个目标值出现次数相同，则返回最小的目标值。解题思路哈希表统计：使用哈希表 map 来统计每个 seed % space 的出现次数，题干中给出的等式等价 ...阅读全文

【开源分享】PHP 在线客服系统源码全开源无加密，支持自动刷新网页即时接收消息

智能化在线客服系统也是其中一个必备功能。其智能化主要体现在细节中，在保持客服人员工作正常进行的情况下，让效率变高。智能化在线客服系统采取“轮询”的工单分配方式，让合适的客服人员处理合适的问题；提供“视图”功能，让客服人员专注于重要工单；强大的“搜索”功能，迅速锁定目标客户等等。源码产品特点：自动 ...阅读全文

中级 Java 软件工程师会遇到的事情

计算机编程设计是一种工程学科。工程是依靠科学和时间实践才能有的经验。工程偏向的是工程师的动手能力。科学是引导方向。C 语言程序开发语言是一种软件思想知识普及的划时代的变革。大学中学习过程序设计的学生，对于 assembly 汇编，Basical 程序设计等都是十分头疼的。程序和程式是意思都是一 ...阅读全文

京东正在疯狂招人。。。

大家好，我是R哥。最近京东疯狂招人，都招疯了。从 8 月底到现在，好几个「面试辅导」的兄弟姐妹都给了我这样的反馈。看来东哥是真的缺 “兄弟” 了，现在是和东哥做兄弟的最佳时机了，也是进入京东的最佳时机。根据我们在京东内推的兄弟介绍，本次紧急招人是因为项目组来了个新业务。这是他提供的岗位信息 ...阅读全文

智能物流分拣管理

电子商务的兴起，实体消费和虚拟消费结合的方式加快商品流通速度。计算机硬件和软件结合，改变了现代社会的工作和生活。线上和线下的消费方式这种消费观念新颖，受到很多年轻消费者的青睐。不同的时期有不同的经济运行机制，电子是一种比较新的能量，绑定商务消费模式之后很多消费者会比较好奇。机械机器是一门较老 ...阅读全文

PLC结构化文本（ST）——AND_THEN & OR_ELSE

PLC Structured Text Object Oriented Programming PLC结构化文本（ST）——AND_THEN & OR_ELSE 特殊机制运算符AND_THEN和OR_ELSE与我们常用的AND和OR功能相同却有点区别。 IF FALSE AND calculate ...阅读全文

转发和重定向

Java web 开发中的转发和重定向是 JavaEE 开发中的基础知识。转发 dispatcher 和重定向 send redirect 有区别。用户在客户端请求服务器端的数据服务，是由客户端的操作事件触发。请求 request 可以是一次数据服务的单机事件 event 或者是双击事 ...阅读全文

Qt 中实现异步散列器

在很多工作中，我们需要计算数据或者文件的散列值，例如登录或下载文件。而在 Qt 中，负责这项工作的类为 `QCryptographicHash`。虽然 `QCryptographicHash `很优秀，但它最大的问题在于其散列值的计算是同步的( 即阻塞 )，对小数据来说并没什么影响，但对大数据来... ...阅读全文

信息安全

数据的安全性在Java的网络传输过程中需要通过信息的加密和解密。数据的加密过程有相应的数据编码标准。JavaEE的默认数据编码标准是IOS8859-1。前端请求过来的数据在客户端会有缓存的存在，后台的数据相应在客户端也会缓存。每次用户打开浏览器的窗口的tab页面的时候，用户客户端都会有数据的请求缓存 ...阅读全文