第二章爬虫的实现原理和技术（一）

news2025/9/21 6:58:45

2.1 爬虫的实现原理

不同类型的爬虫，具体的实现原理也不尽相同，但是这些爬虫之间存在许多共性。下面我将以通用爬虫与聚焦爬虫为例，具体来讲解爬虫是如何来运作的。

通用爬虫的工作原理

通用爬虫是一个自动提取网页的程序，能够从Internet上下载网页，是大多的搜索引擎的重要组成部分。
通用爬虫从一个或若干个初始的URL开始，获取初始网页上的URL，再爬去网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统程序的停止条件。
通用爬虫从互联网中收集网页、采集信息，这些网页信息用于为搜索引擎提供支持，它决定着整个引擎系统是否丰富，是否能够及时更新，因此设计出来的爬虫性能的优劣将直接影响着搜索引擎的搜索效果。
但是，用于搜索引擎的的通用爬虫其爬行的行为需要符合一定的规则，遵循一些命令或者文件的内容，如标出nofollow的链接，或者rebots的协议。（关于rebots协议的详细将会，在后面介绍）。
在这里插入图片描述

聚焦爬虫工作原理

与通用爬虫相比，聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法进行过滤与主题无关的链接，来保留需要的链接，并对其进行爬取。然后他将根据一定的搜索策略，从队列中选择要爬取的网页URL，并不断重复上述的过程，知道达到系统的某一条件时停止。
相对于通用网络爬虫，聚焦爬虫还需要解决3个主要的问题。

对爬

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/36325.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

关于FFmepg的冷知识，这一篇就够了

关于FFmepg的冷知识，这一篇就够了

每一个从事音视频技术开发的工程师对FFmpeg都不会感到陌生，即使是刚刚踏入这个行业的初学者，但对他们来说这条路上好像有着一条不可逾越的鸿沟，“雷神”和许多大神都总结过一些FFmpeg的学习方法，小编在这里为大家做一个整理&#…

阅读更多...

《恋上数据结构与算法》第1季：动态数组原理实现（图文并茂，一文带你了解ArrayList底层实现）

《恋上数据结构与算法》第1季：动态数组原理实现（图文并茂，一文带你了解ArrayList底层实现）

动态数组原理实现一、数组（Array）二、动态数组三、动态数组的设计四、动态数组的实现1. 添加元素2. 数组扩容3. 删除元素4. 数组缩容5. 清空元素6. 修改元素7. 查询元素8. 插入元素9. 查看元素位置10. 是否包含某个元素11. 元素的数量12. 数组是否为空13…

阅读更多...

win11的C/C++环境配置——基于MinGW-W64 GCC-8.1.0

win11的C/C++环境配置——基于MinGW-W64 GCC-8.1.0

首先给出MinGW-W64 GCC-8.1.0的下载地址：MinGW8.1.0 Win11下的C/C环境配置下载MinGW-W64 GCC-8.1.0添加bin文件和include文件到path变量中测试下载MinGW-W64 GCC-8.1.0 网页截图如下： 可以复制下载地址到迅雷中加速，下载完成后的文件如下&a…

阅读更多...

MCE | “神药”二甲双胍后，糖尿病药物研究谁将是下一个顶流？

MCE | “神药”二甲双胍后，糖尿病药物研究谁将是下一个顶流？

说到糖尿病药物，就不得不提一嘴“神药”二甲双胍，但除了二甲双胍，抗糖尿病药物的研究难道就没有点新玩意儿？当然有！ 糖尿病 (Diabetes) 是一种以高血糖为特征的慢性代谢病，是由于胰岛素分泌缺陷或者其生物…

阅读更多...

美团闪购：闪电仓商户如狼似虎，传统商超便利店坐享其成？

美团闪购：闪电仓商户如狼似虎，传统商超便利店坐享其成？

近日，考研网红教师张雪峰一句“外卖员这个职业5-10年内可能会消失”再度登上热搜。其实，他的这个推论，只是看到了目前外卖骑手的保有量，截至2021年，中国外卖骑手约1300万名。并没有看到炙手可热的“即时消费”新趋势&…

阅读更多...

【Shell 脚本速成】05、Shell 运算详解

【Shell 脚本速成】05、Shell 运算详解

目录一、赋值运算二、算术运算[四则运算] 2.1 运算符与命令 2.2 整形运算 expr 命令：只能做整数运算，格式比较古板，运算符号两边注意空格 let命令：只能做整数运算，且运算元素必须是变量，无法直接对…

阅读更多...

MySQL窗口函教-序号函数（row_number、rank、dense_rank）

MySQL窗口函教-序号函数（row_number、rank、dense_rank）

MySQL窗门函教-序号函数（row_number、rank、dense_rank） 前言 mysql8.0中新增窗口函数（开窗函数） 窗口函数和普通聚合函数的区别 ①聚合函数是将多条记录聚合为一条；窗口函数是每条记录都会执行，有几条记…

阅读更多...

代码源每日一题div1 区间和

代码源每日一题div1 区间和

区间和 - 题目 - Daimayuan Online Judge 题意： 思路： 根据前缀和的性质：当已知的前缀和区间是整个区间的划分时，才能求出整个区间的和因为如果两个区间之间有交叉，交叉部分的和求不出来因此，如果已知…

阅读更多...

DeFi收益来源全面概述

DeFi收益来源全面概述

去中心化金融一个主要的优势就是它对所有人开放，任何人在任何时间、任何地点都可以参与其中。这样一来，作为DeFi参与者就有机会获得在传统金融领域很难获得或根本不可能获得的收益。加密货币的特性是开源的、无需许可的，这将DeFi变成了一个…

阅读更多...

【Linux】进程创建/终止/等待/替换

【Linux】进程创建/终止/等待/替换

目录一、子进程的创建 1、fork函数的概念 2、如何理解fork拥有两个返回值 3、fork调用失败的场景二、进程的终止 1、main函数返回值 1.1main函数的返回值的意义 1.2将错误码转化为错误信息 1.3查看进程的退出码 2、进程退出的情况 1、进程的正常退出与异常退出 2…

阅读更多...

Principal branch

Principal branch

In mathematics, a principal branch is a function which selects one branch (“slice”) of a multi-valued function. Most often, this applies to functions defined on the complex plane. Contents1 Examples1.1 Trigonometric inverses1.2 Exponentiation to fraction…

阅读更多...

255-261BFC,媒体的类型，媒体的特性，浏览器前缀，媒体查询，逻辑操作符，

255-261BFC,媒体的类型，媒体的特性，浏览器前缀，媒体查询，逻辑操作符，

◼ 有时候可能会看到有些CSS属性名前面带有：-o-、-xv-、-ms-、mso-、-moz-、-webkit- ◼ 官方文档专业术语叫做：vendor-specific extensions（供应商特定扩展） ◼ 为什么需要浏览器前缀了？  CSS属性刚开始并没有成为标准，浏览器为了防止后续会修改名字给新的属性添加了浏…

阅读更多...

树莓派学习笔记（一）

树莓派学习笔记（一）

树莓派学习笔记笔记来自B站UP主【树小悉】的树莓派系列视频的听课笔记，通俗易懂，风趣幽默，适合新手入门，强烈推荐！！！ 关机命令 sudo poweroff 关闭电源sodo shutdown -h now 立刻关机sudp shut…

阅读更多...

二、进程管理（四）经典同步互斥问题

二、进程管理（四）经典同步互斥问题

目录 4.1生产者-消费者问题 4.1.1单类生产者-单类消费者问题 4.1.2多类生产者-多类消费者问题 4.1.3吸烟者问题 4.2读者-写者问题 4.3哲学家进餐问题分析进程同步和互斥问题的三步： 关系分析：分析问题中的同步（前驱关系）、…

阅读更多...

端口渗透篇：Java RMI 远程代码执行漏洞

端口渗透篇：Java RMI 远程代码执行漏洞

转载https://cloud.tencent.com/developer/article/2149191 前言持续更新：整理下渗透测试工作中发现过的漏洞（包含漏洞描述、漏洞等级、漏洞验证、修复建议），这里不深究漏洞产生的各种后利用或者绕过方式，漏洞验证过程…

阅读更多...

【Python游戏】Python各大游戏合集（5）：塔防游戏、飞机大战、连连看、打地鼠、记忆翻牌 | 附带源码

【Python游戏】Python各大游戏合集（5）：塔防游戏、飞机大战、连连看、打地鼠、记忆翻牌 | 附带源码

相关文件关注小编，私信小编领取哟！ 当然别忘了一件三连哟~~ 公众号：Python日志可以关注小编公众号，会不定时的发布一下Python小技巧，还有很多资源可以免费领取哟！！ 源码领取：加P…

阅读更多...

【高速数字化仪应用案例系列】虹科数字化仪在通信领域的应用

【高速数字化仪应用案例系列】虹科数字化仪在通信领域的应用

通信应用随着国际社会要求以越来越快的速度传输更多信息，电子通信也在不断发展。模拟和数字技术用于无线、光纤和有线网络系统提供的点对点和广播通信。为了开发和维护这些系统，工程师需要能够测试和鉴定接收和传输的信号。需要减少信号损失或衰减&…

阅读更多...

SpringBoot SpringBoot 原理篇 1 自动配置 1.2 bean 的加载方式【二】

SpringBoot SpringBoot 原理篇 1 自动配置 1.2 bean 的加载方式【二】

SpringBoot 【黑马程序员SpringBoot2全套视频教程，springboot零基础到项目实战（spring boot2完整版）】 SpringBoot 原理篇文章目录SpringBootSpringBoot 原理篇1 自动配置1.2 bean 的加载方式【二】1.2.1 第二种方式1 自动配置 1.2 bean …

阅读更多...

idea 项目代码打包为jar包详解

idea 项目代码打包为jar包详解

目录前言一、将所有依赖和模块代码打包为一个jar二、只将模块代码打包为一个jar前言假设我有如下简单 maven 项目点击 File > Project Structure > Artifacts > 点击加号 > 选择JAR > 选择From modules with dependencies 一、将所有依赖和模块代码打包为一…

阅读更多...

【树莓派不吃灰】命令篇⑨ 记录学习文件系统

【树莓派不吃灰】命令篇⑨ 记录学习文件系统

目录1. 外部存储设备1.1 分区挂载1.2 查看磁盘信息（包括未挂载磁盘）1.2.1 mmcblk0p01.2.2 sda1（额外了解）1.3 查看UUID1.4 查看文件系统挂载情况2. 文件系统2.1 索引式文件系统2.1.1 EXT2 文件系统（了解）2.…

阅读更多...

推荐文章

最新文章