5个鲜有人知的爬虫技巧

5个鲜有人知的爬虫技巧

news2025/9/19 7:03:31

几点鲜有人知的爬虫技巧

技巧一换个角度，解锁新姿势

在爬取某些 web 网站的时候，被各种反爬弄得哭天喊地。

什么几把 css 字体加密，什么几把 js 的 MD5 等，各种乱七八糟的加密，什么各种飞的验证

这时候，就别太执着于 web PC 端嘛，咱们去看看人家的移动端，看看人家的 H5，可能你会在移动端发现惊喜，数据都是一样的数据，冤冤相报何时了。

技巧二频率不要太快

在爬取的时候，要学会停顿，克制一点。

该 sleep 就 sleep， IP 才不会频繁被封

技巧三善用他人的 UA

如果你去看别人网站的 robots.txt，你就会看到别人的声明：声明什么东西是可以爬取，什么东西是不允许被爬的

但你常常忽略了一个东西，人家声明了希望给什么搜索引擎爬，比如这个
在这里插入图片描述

看到没，这是别人定义的 robots，值得注意的是：尚亮亮的 User-agent

那么当你在 Python 构造 Header 的时候，User-agent 就直接指定他们 robots 定义的就好了啊

比如百度的UA，google的UA，360的UA。你再去爬取看看，那是一个友好啊

技巧四快速生成 Header

每一次你在复制 request header 的时候，是不是有一大串有的没的，又不得不复制过来，在你的 Python 中使用，每次操作很麻烦是不？

那你可以自己写一个方法：参数就是你复制的 header 字符串，然后生成 header 的字典格式

技巧五找到对方的 sitemap.xml

有时候你想爬取整个网站的url，怎么办呢？

不是去首页一个一个抓，你应该找到对方的 sitemap.xml，因为网站一般希望 Google 或者百度快点收录他们的网站，所以他们会把自己的网站的 url 生成 sitemap 提交，这个时候 sitemap 就包含了这个网站所有可爬取的 url。

sitemap一般在网站的根目录下，可以在他们的 robots.txt 看看他们指定的位置，比如猫眼电影的sitemap：
在这里插入图片描述

从而获取 sitemap 再去请求里面的 url 即可！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1007142.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【汇编】计算机系统组成

【汇编】计算机系统组成

【汇编】计算机系统组成文章目录【汇编】计算机系统组成冯诺依曼结构1. 总线2. 程序存储3. 存储器3.1地址线与字节3.2 读写逻辑冯诺依曼结构冯诺伊曼结构（Von Neumann Architecture），又称存储程序计算机结构，是计算机体系结构…

阅读更多...

VB：二分法查找

VB：二分法查找

VB：二分法查找二分查找算法 Private Sub Command1_Click()Dim i%, m%, n%Dim x(1 To 10) As SingleFor i 1 To 10x(i) Val(InputBox("请输入"))Next iCall bubbleSort(x)For i LBound(x) To UBound(x) LBound(x)和UBound(x)是用于获取数组x的下界和上…

阅读更多...

[移动通讯]【Carrier Aggregation-4】【LTE-3】

[移动通讯]【Carrier Aggregation-4】【LTE-3】

前言: 这里面重点讲解一下跟CA 相关的 UL UECapabilityInformation 参考： LTE附着流程详解-UECapabilityInformation_Amao_come_on的博客-CSDN博客支持载波聚合的终端(UE) 4G | ShareTechnote CSDN CSDN LTE category New_is lte category supported in th…

阅读更多...

厂商征集 | 2023年中国RPA市场洞察研究报告正式启动

厂商征集 | 2023年中国RPA市场洞察研究报告正式启动

RPA中国基于在科技行业的资源积累，以及对各领域「技术领导者」、「技术应用者」、「产品服务商」的深度调研，2023年，我们重点推出MI报告 ( Market Insight )、CI Vendor报告（Comprehensive Influence Vendor）两个系列。…

阅读更多...

vvic API接口接入说明：解锁新一代数据可视化的无限可能

vvic API接口接入说明：解锁新一代数据可视化的无限可能

随着大数据时代的来临，数据可视化已成为我们理解、分析和呈现复杂数据的重要手段。在这个领域中，vvic以其独特的优势，引领着数据可视化的发展潮流。其强大的API接口，更是为开发者提供了无限可能，让数据可视化变得更为简…

阅读更多...

c语言练习题54：指针（大小端字节序）

c语言练习题54：指针（大小端字节序）

指针（大小端字节序） 题目代码： #include <stdio.h> int main() {int a[4] { 1, 2, 3, 4 };int* ptr1 (int*)(&a 1);int* ptr2 (int*)((int)a 1);printf("%x,%x", ptr1[-1], *ptr2);return 0; } 思路：…

阅读更多...

rpc协议与http协议简述

rpc协议与http协议简述

http协议 HTTP（Hypertext Transfer Protocol，超文本传输协议）是一种用于在计算机之间传输超文本的应用层协议。它是Web应用中最常用的协议，用于在客户端和服务器之间传输数据。 HTTP超文本传输协议教程 http由定义可以看出是传…

阅读更多...

PC网上订货系统的定义与组成|企业手机APP订单管理软件

PC网上订货系统的定义与组成|企业手机APP订单管理软件

PC网上订货系统的定义与组成|企业手机APP订单管理软件企业网上订货系统主要用于公司和订货商建立订货关系，绑定订货商属于是经销商订货软件、供货商订货系统。通过企业网上订货管理系统这把利器可以帮助企业打通线上， 线下业务，实现进销…

阅读更多...

了解抖音小店认证：提升信誉度，增加曝光率，开启更多功能

了解抖音小店认证：提升信誉度，增加曝光率，开启更多功能

抖音小店是抖音平台推出的一个电商功能，旨在帮助用户将抖音上的流量转化为销售，实现线上线下的互通。抖音小店认证是指商家通过一系列的审核流程，获得官方认证的资格，获得更多的曝光和特权，提升商家的信誉度和用户的购…

阅读更多...

一百七十六、Kettle——Kettle配置HDFS输出控件能不能加GZIP等压缩方式?

一百七十六、Kettle——Kettle配置HDFS输出控件能不能加GZIP等压缩方式?

一、目的为了尽可能减少磁盘资源的消耗，因此需要对从Kafka到HDFS的写入数据进行数据压缩。由于使用的ETL工具是kettle，因此研究一下Kettle配置HDFS输出控件时能不能加GZIP等压缩方式? kettle9.2的HDFS输出控件压缩方式包括GZip、Hadoop-snappy、None…

阅读更多...

如何在Python爬虫程序中使用HTTP代理？

如何在Python爬虫程序中使用HTTP代理？

在进行网络爬虫时，我们经常需要使用代理服务器来隐藏自己的真实IP地址，以避免被目标网站封禁或限制访问。本文将介绍如何将HTTP代理配置到Python爬虫程序中使用。什么是HTTP代理？ HTTP代理是一种网络代理，它充当客户端和服务器之…

阅读更多...

asp.net一套完整的实验室综合管理系统源码 LIMS

asp.net一套完整的实验室综合管理系统源码 LIMS

LIMS将样品管理、数据管理、资源管理、业务管理、报告管理等功能融为一体，组成一套完整的实验室综合管理和产品质量监控体系。其核心是规范样品化验分析的工作流程，对样品分析的每一个环节进行监控和管理，在提高样品分析质量和人员工作效率的…

阅读更多...

集中采购如何节省企业时间和金钱？

集中采购如何节省企业时间和金钱？

初创企业和规模较小的企业在采购时往往抱着 "获取业务所需 "的心态进行采购。这对于采购需求较低的小型企业来说可能可行，但随着企业的发展，采购系统必须不断发展。这种演变通常始于一种通过技术进一步强化的流程——集中采购模式。利用集中…

阅读更多...

恒运资本：煤炭、石油板块拉升，安泰集团一度涨停，中曼石油等走高

恒运资本：煤炭、石油板块拉升，安泰集团一度涨停，中曼石油等走高

煤炭板块13日盘中发力走高，到发稿，安泰集团涨超6%，盘中一度涨停；平煤股份、山煤国际涨逾3%。石油、燃气板块亦上扬，到发稿，大连热电涨超7%，中曼石油涨逾4%，贝肯能源涨逾2%。组织表…

阅读更多...

数据治理的 “独孤九剑”

数据治理的 “独孤九剑”

加gzh“大数据食铁兽”，了解更多大数据资讯！ 来源：与数据同行免责声明：以上报告均系本平台通过公开、合法渠道获得，报告版权归原撰写/发布机构所有，如涉侵权，请联系删除 ；资料…

阅读更多...

【云原生进阶之PaaS中间件】第二章Zookeeper-3.2架构详解

【云原生进阶之PaaS中间件】第二章Zookeeper-3.2架构详解

1 Zookeeper工作原理 1.1 Zookeeper的角色领导者（leader），负责进行投票的发起和决议，更新系统状态学习者（learner），包括跟随者（follower）和观察者（observer），follower用于接受客户端请求并想客户端返回结果，在选主过程中参与投票 Observer可…

阅读更多...

向日葵管理平台添加主机，获取葵码，在设备上进行绑定

向日葵管理平台添加主机，获取葵码，在设备上进行绑定

管理平台地址贝锐向日葵管理 - 登录 (oray.com) 使用微信扫码登录查看设备管理-设备列表添加单个设备输入名称，点击确定生成葵码，点击此处进行复制，在被控端上进行葵码绑定

阅读更多...

阿里云OSS文件上传下载【专栏】------文件下载（二）

阿里云OSS文件上传下载【专栏】------文件下载（二）

目录 1、流式下载1.1、代码示例1.2、执行结果 2、下载到本地文件2.1、代码示例2.2、执行结果 3、断点续传下载3.1、代码示例3.2、执行结果 1、流式下载当下载的文件太大或者一次性下载耗时太长时，您可以通过流式下载，一次处理部分内容，直到完…

阅读更多...

热管理系统研发服务

热管理系统研发服务

为了适应电动化和智能化的需求，汽车热管理正从传统的发动机冷却和空调系统发展至电池热管理、电机电控热管理系统以及热泵空调系统，以实现对座舱温度、电池温度和动力总成温度的精确控制。由于新增了繁多的、控制精度要求更高的零部件，使得系…

阅读更多...

《TCP/IP网络编程》阅读笔记--多线程服务器端的实现

《TCP/IP网络编程》阅读笔记--多线程服务器端的实现

1--多线程的优点多进程服务器的缺点： ① 创建进程的过程会带来一定的开销； ② 为了完成进程间的数据交换，需要特殊的 IPC 技术； ③ 进程间的上下文切换是创建进程时的最大开销； 多线程的优点： ① 线程的创…

阅读更多...

推荐文章

最新文章