5个鲜有人知的爬虫技巧

news2025/7/18 22:20:25

几点鲜有人知的爬虫技巧

技巧一 换个角度,解锁新姿势

在爬取某些 web 网站的时候,被各种反爬弄得哭天喊地。

什么几把 css 字体加密,什么几把 js 的 MD5 等,各种乱七八糟的加密,什么各种飞的验证

这时候,就别太执着于 web PC 端嘛,咱们去看看人家的移动端,看看人家的 H5,可能你会在移动端发现惊喜,数据都是一样的数据,冤冤相报何时了。

技巧二 频率不要太快

在爬取的时候,要学会停顿,克制一点。

该 sleep 就 sleep, IP 才不会频繁被封

技巧三 善用他人的 UA

如果你去看别人网站的 robots.txt,你就会看到别人的声明:声明什么东西是可以爬取,什么东西是不允许被爬的

但你常常忽略了一个东西,人家声明了希望给什么搜索引擎爬,比如这个
在这里插入图片描述

看到没,这是别人定义的 robots,值得注意的是:尚亮亮的 User-agent

那么当你在 Python 构造 Header 的时候,User-agent 就直接指定他们 robots 定义的就好了啊

比如 百度的UA,google的UA,360的UA。你再去爬取看看,那是一个友好啊

技巧四 快速生成 Header

每一次你在复制 request header 的时候,是不是有一大串有的没的,又不得不复制过来,在你的 Python 中使用,每次操作很麻烦是不?

那你可以自己写一个方法:参数就是你复制的 header 字符串,然后生成 header 的字典格式

技巧五 找到对方的 sitemap.xml

有时候你想爬取整个网站的url,怎么办呢?

不是去首页一个一个抓,你应该找到对方的 sitemap.xml,因为网站一般希望 Google 或者百度快点收录他们的网站,所以他们会把自己的网站的 url 生成 sitemap 提交,这个时候 sitemap 就包含了这个网站所有可爬取的 url

sitemap一般在网站的根目录下,可以在他们的 robots.txt 看看他们指定的位置,比如猫眼电影的sitemap:
在这里插入图片描述

从而获取 sitemap 再去请求里面的 url 即可!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1007142.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【汇编】计算机系统组成

【汇编】计算机系统组成 文章目录 【汇编】计算机系统组成冯诺依曼结构1. 总线2. 程序存储3. 存储器3.1地址线与字节3.2 读写逻辑 冯诺依曼结构 冯诺伊曼结构(Von Neumann Architecture),又称存储程序计算机结构,是计算机体系结构…

VB:二分法查找

VB:二分法查找 二分查找算法 Private Sub Command1_Click()Dim i%, m%, n%Dim x(1 To 10) As SingleFor i 1 To 10x(i) Val(InputBox("请输入"))Next iCall bubbleSort(x)For i LBound(x) To UBound(x) LBound(x)和UBound(x)是用于获取数组x的下界和上…

[移动通讯]【Carrier Aggregation-4】【LTE-3】

前言: 这里面重点讲解一下跟CA 相关的 UL UECapabilityInformation 参考: LTE附着流程详解-UECapabilityInformation_Amao_come_on的博客-CSDN博客 支持载波聚合的终端(UE) 4G | ShareTechnote CSDN CSDN LTE category New_is lte category supported in th…

厂商征集 | 2023年中国RPA市场洞察研究报告正式启动

RPA中国基于在科技行业的资源积累,以及对各领域「技术领导者」、「技术应用者」、「产品服务商」的深度调研,2023年,我们重点推出MI报告 ( Market Insight )、CI Vendor报告(Comprehensive Influence Vendor)两个系列。…

vvic API接口接入说明:解锁新一代数据可视化的无限可能

随着大数据时代的来临,数据可视化已成为我们理解、分析和呈现复杂数据的重要手段。在这个领域中,vvic以其独特的优势,引领着数据可视化的发展潮流。其强大的API接口,更是为开发者提供了无限可能,让数据可视化变得更为简…

c语言练习题54:指针(大小端字节序)

指针&#xff08;大小端字节序&#xff09; 题目代码&#xff1a; #include <stdio.h> int main() {int a[4] { 1, 2, 3, 4 };int* ptr1 (int*)(&a 1);int* ptr2 (int*)((int)a 1);printf("%x,%x", ptr1[-1], *ptr2);return 0; } 思路&#xff1a;…

rpc协议与http协议简述

http协议 HTTP&#xff08;Hypertext Transfer Protocol&#xff0c;超文本传输协议&#xff09;是一种用于在计算机之间传输超文本的应用层协议。它是Web应用中最常用的协议&#xff0c;用于在客户端和服务器之间传输数据。 HTTP超文本传输协议教程 http由定义可以看出是传…

PC网上订货系统的定义与组成|企业手机APP订单管理软件

PC网上订货系统的定义与组成|企业手机APP订单管理软件 企业网上订货系统主要用于公司和订货商建立订货关系&#xff0c;绑定订货商 属于是 经销商订货软件、供货商订货系统。 通过企业网上订货管理系统这把利器可以帮助企业打通线上&#xff0c; 线下业务&#xff0c;实现进销…

了解抖音小店认证:提升信誉度,增加曝光率,开启更多功能

抖音小店是抖音平台推出的一个电商功能&#xff0c;旨在帮助用户将抖音上的流量转化为销售&#xff0c;实现线上线下的互通。抖音小店认证是指商家通过一系列的审核流程&#xff0c;获得官方认证的资格&#xff0c;获得更多的曝光和特权&#xff0c;提升商家的信誉度和用户的购…

一百七十六、Kettle——Kettle配置HDFS输出控件能不能加GZIP等压缩方式?

一、目的 为了尽可能减少磁盘资源的消耗&#xff0c;因此需要对从Kafka到HDFS的写入数据进行数据压缩。由于使用的ETL工具是kettle&#xff0c;因此研究一下Kettle配置HDFS输出控件时能不能加GZIP等压缩方式? kettle9.2的HDFS输出控件压缩方式包括GZip、Hadoop-snappy、None…

如何在Python爬虫程序中使用HTTP代理?

在进行网络爬虫时&#xff0c;我们经常需要使用代理服务器来隐藏自己的真实IP地址&#xff0c;以避免被目标网站封禁或限制访问。本文将介绍如何将HTTP代理配置到Python爬虫程序中使用。 什么是HTTP代理&#xff1f; HTTP代理是一种网络代理&#xff0c;它充当客户端和服务器之…

asp.net一套完整的实验室综合管理系统源码 LIMS

LIMS将样品管理、数据管理、资源管理、业务管理、报告管理等功能融为一体&#xff0c;组成一套完整的实验室综合管理和产品质量监控体系。其核心是规范样品化验分析的工作流程&#xff0c;对样品分析的每一个环节进行监控和管理&#xff0c;在提高样品分析质量和人员工作效率的…

集中采购如何节省企业时间和金钱?

初创企业和规模较小的企业在采购时往往抱着 "获取业务所需 "的心态进行采购。这对于采购需求较低的小型企业来说可能可行&#xff0c;但随着企业的发展&#xff0c;采购系统必须不断发展。 这种演变通常始于一种通过技术进一步强化的流程——集中采购模式。利用集中…

恒运资本:煤炭、石油板块拉升,安泰集团一度涨停,中曼石油等走高

煤炭板块13日盘中发力走高&#xff0c;到发稿&#xff0c;安泰集团涨超6%&#xff0c;盘中一度涨停&#xff1b;平煤股份、山煤国际涨逾3%。石油、燃气板块亦上扬&#xff0c;到发稿&#xff0c;大连热电涨超7%&#xff0c;中曼石油涨逾4%&#xff0c;贝肯能源涨逾2%。 组织表…

数据治理的 “独孤九剑”

加gzh“大数据食铁兽”&#xff0c;了解更多大数据资讯&#xff01; 来源&#xff1a;与数据同行 免责声明&#xff1a;以上报告均系本平台通过公开、合法渠道获得&#xff0c;报告版权归原撰写/发布机构所有&#xff0c;如涉侵权&#xff0c;请联系删除 &#xff1b;资料…

【云原生进阶之PaaS中间件】第二章Zookeeper-3.2架构详解

​​​​​​​ 1 Zookeeper工作原理 1.1 Zookeeper的角色 领导者(leader),负责进行投票的发起和决议,更新系统状态 学习者(learner),包括跟随者(follower)和观察者(observer),follower用于接受客户端请求并想客户端返回结果,在选主过程中参与投票 Observer可…

向日葵管理平台添加主机,获取葵码,在设备上进行绑定

管理平台地址 贝锐向日葵管理 - 登录 (oray.com) 使用 微信扫码登录 查看设备管理-设备列表 添加单个设备 输入名称&#xff0c;点击确定 生成葵码&#xff0c;点击此处 进行复制&#xff0c;在 被控端上进行葵码绑定

阿里云OSS文件上传下载【专栏】------文件下载(二)

目录 1、流式下载1.1、代码示例1.2、执行结果 2、下载到本地文件2.1、代码示例2.2、执行结果 3、断点续传下载3.1、代码示例3.2、执行结果 1、流式下载 当下载的文件太大或者一次性下载耗时太长时&#xff0c;您可以通过流式下载&#xff0c;一次处理部分内容&#xff0c;直到完…

热管理系统研发服务

为了适应电动化和智能化的需求&#xff0c;汽车热管理正从传统的发动机冷却和空调系统发展至电池热管理、电机电控热管理系统以及热泵空调系统&#xff0c;以实现对座舱温度、电池温度和动力总成温度的精确控制。由于新增了繁多的、控制精度要求更高的零部件&#xff0c;使得系…

《TCP/IP网络编程》阅读笔记--多线程服务器端的实现

1--多线程的优点 多进程服务器的缺点&#xff1a; ① 创建进程的过程会带来一定的开销&#xff1b; ② 为了完成进程间的数据交换&#xff0c;需要特殊的 IPC 技术&#xff1b; ③ 进程间的上下文切换是创建进程时的最大开销&#xff1b; 多线程的优点&#xff1a; ① 线程的创…