基于Chrome的Easy Scraper插件抓取网页
背景
爬虫程序,又称为网络爬虫或爬虫(spider),是一种自动化程序,主要用于向网站或网络发起请求,获取资源后分析并提取有用数据。从技术层面来看,爬虫程序通过模拟浏览器请求站点的行为,把站点返回的HTML代码、JSON数据、二进制数据(如图片、视频)爬取到本地,进而提取并存储自己需要的数据。
爬虫程序的工作原理主要包括以下几个步骤:
1. 网页请求:爬虫首先需要确定要爬取的目标网址,并选择合适的请求方法(如GET或POST)。爬虫还可以设置请求头部信息,模拟浏览器的请求,以避免被网站的反爬虫机制拦截。一旦发送了请求,爬虫就会等待服务器的响应,获取网页的内容。
2. 数据解析:爬虫获取到网页内容后,需要对这些内容进行解析。网页通常是使用HTML、XML或JSON等标记语言编写的,爬虫需要根据网页的结构和规则,提取出需要的数据。爬虫还可以使用正则表达式来匹配和提取特定的数据。在解析网页的过程中,爬虫还可以进行数据清洗和处理,以获取更加干净和规范的数据。
3. 数据存储:爬虫将解析后的数据进行存储,可以存放在数据库或文件中,以便后续使用和分析。
爬虫程序的应用非常广泛,例如:
1. 获取网页源代码,便于进行进一步的分析和处理。
2. 对数据进行筛选和提取,获取有用的信息,如商品价格、新闻内容等。
3. 保存数据,将爬取到的数据存储起来,供后续使用或分析。
4. 进行数据分析和调研,通过对爬取到的数据进行统计和分析,可以了解市场趋势、用户行为等信息。
需要注意的是,爬虫程序的使用需要遵守相关法律法规和网站的robots协议,不得进行恶意爬取或侵犯他人权益的行为。同时,对于大型网站或需要频繁爬取的场景,还需要考虑如何避免对网站造成过大的负担,以及如何处理反爬虫机制等问题。
实践
1. 抓取列表
我们今天实践一个基于Chrome的Easy Scraper爬虫插件,先抓取列表
下载的JSON如下,CSV类似
2. 抓取详情页
先把收集的URL列表,存储为csv
上传
下一步有一个预览可视化抓取区域
第三阶段就可以开始抓取了
抓取结果40个URL, 1分:25秒
包含中文的csv文件,需要手动转换 UTF-8 BOM格式,EXCEL打开效果。
总结
总体操作比较方便,相比写程序抓取省不时间。抓取速度较慢,但刚才符合网站防止爬取的特性。更多参考
今天先到这儿,希望对云原生,技术领导力, 企业管理,系统架构设计与评估,团队管理, 项目管理, 产品管管,团队建设 有参考作用 , 您可能感兴趣的文章:
领导人怎样带领好团队
构建创业公司突击小团队
国际化环境下系统架构演化
微服务架构设计
视频直播平台的系统架构演化
微服务与Docker介绍
Docker与CI持续集成/CD
互联网电商购物车架构演变案例
互联网业务场景下消息队列架构
互联网高效研发团队管理演进之一
消息系统架构设计演进
互联网电商搜索架构演化之一
企业信息化与软件工程的迷思
企业项目化管理介绍
软件项目成功之要素
人际沟通风格介绍一
精益IT组织与分享式领导
学习型组织与企业
企业创新文化与等级观念
组织目标与个人目标
初创公司人才招聘与管理
人才公司环境与企业文化
企业文化、团队文化与知识共享
高效能的团队建设
项目管理沟通计划
构建高效的研发与自动化运维
某大型电商云平台实践
互联网数据库架构设计思路
IT基础架构规划方案一(网络系统规划)
餐饮行业解决方案之客户分析流程
餐饮行业解决方案之采购战略制定与实施流程
餐饮行业解决方案之业务设计流程
供应链需求调研CheckList
企业应用之性能实时度量系统演变
如有想了解更多软件设计与架构, 系统IT,企业信息化, 团队管理 资讯,请关注我的微信订阅号:
作者:Petter Liu
出处:http://www.cnblogs.com/wintersun/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
该文章也同时发布在我的独立博客中-Petter Liu Blog。