【爬虫系列】Python爬虫实战--招聘网站的职位信息爬取

news2025/8/6 23:29:52

一、分析

1. 需求分析

从网上找工作,大家一般都会通过各种招聘网站去检索相关信息,今天利用爬虫采集招聘网站的职位信息,比如岗位名称,岗位要求,薪资,公司名称,公司规模,公司位置,福利待遇等最为关心的内容。在采集和解析完成后,使用 Excel 或 csv 文件保存。

2. 目标网页结构的分析

"智联招聘" PC 端网页为例,搜索和打开该网站,并进行账密登陆(主要是为了避免 Session 访问限制)。接着,选择目标城市,并搜索与 Python 相关的职位信息,网站会返回相关招聘职位信息的分页结果,如图所示:

2b8d3c261c5b4814a58c44193749c4bf.png

通过简单的验证,可以发现当前网页不存在动态渲染,也不存在严格的反爬虫机制。

那么,就从第一页开始分析。通过【F12】打开 Google 浏览器的控制台,通过【元素】栏可快速定位到职位列表所在的位置(即 class 为 positionlist 的 div 标签),然后拿该列表下的其中一个“class=joblist-box__item clearfix” 的 div 标签分析,需要的招聘信息基本都在它下面的3个 div 标签内,如下:

6d553fdcfeac460d9b9aa8166178c7b5.png

 如果使用 CSS 选择器的话,定位到职位列表,可以这样做:

soup.find_all('div', class_='joblist-box__item clearfix')

对于需求分析中所说的目标数据,则需要进一步展开元素标签,都可以找到具体的位置,如下:

55581338e79c4de5ac71f9bf95ae1705.png

 这里才到了最关键的地方,即解析出目标数据,以当前这条招聘信息为例,可以这样做:

# 岗位名称
soup.select("div[class='iteminfo__line1__jobname'] > span[class='iteminfo__line1__jobname__name']")[0].get_text().strip()
# 公司名称
soup.select("div[class='iteminfo__line1__compname'] > span")[0].get_text().strip()
# 薪资
soup.select("div[class='iteminfo__line2__jobdesc'] > p")[0].get_text().strip()
# 公司位置
soup.select("div[class='iteminfo__line2__jobdesc'] > ul[class='iteminfo__line2__jobdesc__demand']")[0].get_text().strip().split(" ")[0]

如果遍历第一页的所有招聘信息,在循环中把 select(xxx)[0] 换成 select(xxx)[i] 就可以了。

3. 分页分析

实际上,我们不止会爬取第一页数据,根据情况会需要指定爬取页数,或者爬取所有页。此时,就得寻找请求 URL 的规律了,第一页的 URL 为:

https://sou.zhaopin.com/?jl=653&kw=Python

点击第二页,第三页.....一直到最后一页,URL变化为:

https://sou.zhaopin.com/?jl=653&kw=Python&p=1
https://sou.zhaopin.com/?jl=653&kw=Python&p=2
......
https://sou.zhaopin.com/?jl=653&kw=Python&p=6

这样就可以找到明显的规律,我们把第一页的 URL 也按这种方式拼接一个 &p=1,得到的结果与第一页是一样的。因此,通过这个参数 p 就可以控制爬取的页数。

那爬取所有页呢,该如何判断当前页到了最后一页了?经分析发现,分页区域在 "class=pagination clearfix" 的 div 标签内,准确点说是在 "class=pagination__pages" 的 div 标签内,如下所示:

ed0dd8cde4b74a6a9edab1585db989cd.png

点击到第3页,仍无法区分最后一页的标识,当尝试点击到最后一页(第6页)时,就可以看到不同了,下一页的 div 会多出一个class属性,如下所示:

1b5651a1a90041b1b3c26a38c6974f8b.png

此时,利用这个明显的特征,可以这样写解析表达式,轻松定位到最后一页:

soup.select("div[class='pagination__pages'] > button[class='btn soupager__btn soupager__btn--disable']")

只要判断出 last_page 是否为空值即可,为空说明不是最后一页。经过上述的一番分析,对该招聘网站页面的爬取解析似乎已胸有成竹了。

接下来,选择 request + BeautifulSoup + CSS 选择器的技术方案,实现我们的爬虫目标。

二、代码实现

1. 主体方法的实现

思路如下:

  • 拼接请求的 url,发起 get 请求(支持分页操作),返回响应码为200的话,循环获取 html 网页源代码;
  • 将 html 网页源代码保存成 txt 文件,便于分析和查看问题(比如乱码情况等);
  • 接着,解析 html 页面,并提取出目标数据,并保存成可选格式的文件,比如 csv 文件等。

代码如下:

def process_zhilianzhaopin(baseUrl, pages, fileType, savePath):
    results = [['岗位名称', '公司名称', '岗位薪资', '岗位要求', '公司位置', '福利待遇']]
    headers = UserAgent(path='D:\\XXX\\reptile\\fake_useragent.json').google
    # 根据入参pages,拼接请求url,控制爬取的页数
    for page in range(1, int(pages) + 1):
        url = baseUrl + str(page)
        response = requests.get(url, headers)
        print(f"current url:{url},status_code={response.status_code}")
        if response.status_code == 200:
            html = response.text
            html2txt(html, page, savePath)
            parser_html_by_bs(html, page, results, fileType, savePath)
        else:
            print(f"error,response code is {response.status_code} !")
    print('爬取页面并解析数据完毕,棒棒哒.....................................')

2. 保存网页源代码

注意:前提要保证保存网页源代码的路径是存在的。

def html2txt(html, page, savePath):
    with open(f'{savePath}\\html2txt\\zhilianzhaopin_python_html_{page}.txt', 'w', encoding='utf-8') as wf:
        wf.write(html)
        print(f'write boss_python_html_{page}.txt is success!!!')

3. 解析网页源代码

解析流程:

  • 整体思路:先进行末页判断;非末页的话,再定位当前页的网页元素,并提取目标数据;提取的数据写入指定格式文件。
def parser_html_by_bs(html, current_page, results, fileType, savePath):
    soup = BeautifulSoup(html, "html.parser")
    # 判断当前页是否为最后一页
    if not judge_last_page(current_page, soup):
        # 定位网页元素,获取目标数据
        get_target_info(soup, results)
        # 并将解析的数据写入指定文件类型
        write2file(current_page,results, fileType, savePath)
  • 判断当前页是否为最后一页,是的话不再解析,否则,继续解析。判断代码如下:
def judge_last_page(current_page, soup):
    last_page = soup \
        .select("div[class='pagination__pages'] > button[class='btn soupager__btn soupager__btn--disable']")
    if len(last_page) != 0:
        print("current_page is last_page,page num is " + str(last_page))
        return True
    print(f"current_page is {current_page},last_page is {last_page}")
    return False
  • 解析网页源代码中的 '岗位名称', '公司名称', '岗位薪资', '岗位要求', '公司位置', '福利待遇' 等内容,组装成数据列表写入结果列表,如下:
def get_target_info(soup, results):
    jobList = soup.find_all('div', class_='joblist-box__item clearfix')
    # print(f"jobList: {jobList},size is {len(jobList)}")
    for i in range(0, len(jobList)):
        job_name = soup.select("div[class='iteminfo__line1__jobname'] > span[class='iteminfo__line1__jobname__name']")[i].get_text().strip()
        company_name = soup.select("div[class='iteminfo__line1__compname'] > span")[i].get_text().strip()
        salary = soup.select("div[class='iteminfo__line2__jobdesc'] > p")[i].get_text().strip()
        desc_list = soup.select("div[class='iteminfo__line2__jobdesc'] > ul[class='iteminfo__line2__jobdesc__demand']")[i].get_text().strip()
        # print(f"job_name={job_name} , company_name={company_name}, salary={salary}, tag_list=null, job_area={desc_list.split(' ')[0]}, info_desc=null")
        results.append([job_name,company_name,salary,desc_list.split(" ")[1] + "," + desc_list.split(" ")[2], desc_list.split(" ")[0],"暂时无法获取"])

4. 写入指定文件的方法实现

注意:前提要保证保存写入文件的路径是存在的,这里以写入 csv 文件为例,如果要写入其他文件,可新增条件分支判断自行实现。

def write2file(current_page, results, fileType, savePath):
    if fileType.endswith(".csv"):
        with open(f'{savePath}\\to_csv\\zhilianzhaopin_python.csv', 'a+', encoding='utf-8-sig', newline='') as af:
            writer = csv.writer(af)
            writer.writerows(results)
            print(f'第{current_page}页爬取数据保存csv成功!')

5. 开启测试

if __name__ == '__main__':
    base_url = "https://sou.zhaopin.com/?jl=653&kw=Python&p="
    save_path = "D:\\XXX\\zhilianzhaopin_python"
    page_total = "2"
    process_zhilianzhaopin(base_url, page_total, ".csv", save_path)

以爬取前两页数据为例,把 page_total 赋值为2即可,控制台输出的日志如下:

9dc7731912964bb4b94464cbc9ce498a.png

保存网页源代码的文本文件,测试效果如下:

f421e37b0344411fb656aca88c22c61b.png

解析的数据写入 csv 文件,测试效果如下:

20175efdecd448c48c8c47810122fdbd.png

打开该 csv 文件,可以看到爬取 2 页总共 40 条的职位信息,内容如下:

870028217fd44e2baa689aca5384d0a8.png

如果验证测试爬取所有页的结果(总共有 6 页),我们把测试代码中的 page_total 赋值为 6 即可。

7. 遇到的问题记录

爬取过程中,避免不了出现各种各样的问题,有些暂时还无法解决,甚是头大,这里记录一下。

<1>. 乱码

写入 CSV 文件时,遇到了中文乱码情况,爬取到的中文乱的不堪入目。最后,将 encoding='utf-8' 改成 encoding='utf-8-sig'  就可以解决了!

<2>. 重复数据

以前两页为例,写入 CSV 文件的数据时,出现了重复的情况。经过分析,爬取代码的流程应该没什么问题,而问题在于:无论请求的是第几页的数据,服务器返回的数据都是默认数据?!最直观的验证是 zhilianzhaopin_python_html_1.txt 和 zhilianzhaopin_python_html_2.txt 网页源代码文件的内容是一模一样的,而通过日志打印出的链接去访问,却找不到其中的岗位或公司名称!

至此,恍然大悟啊!智联招聘网站还是开启了反爬虫机制,只不过比较隐蔽,不太好发现和验证,因为爬取者可以爬取到网页数据。如果对爬取的数据不进行细致的验证或分析,很难发现存在这种情况,会误以为爬取成功了呢!

<3>. 末页判断不生效

末页判断不生效的问题,一开始困扰着我。从爬取数据的内容分析来看,网站开启了反爬虫机制,导致无论哪一页的请求,都会被定向请求默认的网页源代码,所以末页的标签永远不会出现了。哎,真是大坑啊!!!

最后

爬虫就是如此,有时候自己觉得已经绕过了网站的爬虫机制,然而等到数据验证和清洗环节才发现问题,这也为学习爬虫提了个醒吧。

不过呢,本篇介绍的分析方法和代码实现,对于没有严格反爬虫的网页是可以通用的,重点在于网页结构的分析,网页元素的定位等内容。对于这种比较隐蔽的反扒机制,还是有办法能解决的,下篇将演示使用 selenium 模块解决这类问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/15719.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

状态机总结(简洁)

一、概念 状态机简写为 FSM&#xff08;Finite State Machine&#xff09;&#xff0c;也称为同步有限状态机&#xff0c;我们一般简称为状态机&#xff0c;之所以说“同步”是因为状态机中所有的状态跳转都是在时钟的作用下进行的&#xff0c;而“有限”则是说状态的个数是有…

【面试题】绝对定位和相对定位

absolute和relative分别依据什么定位&#xff1f; relative依据自身定位absolute依据最近一层的定位元素定位&#xff0c;如果上层没有定位元素&#xff0c;则依据body定位 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8&…

学C/C++想提升功底 可以花点时间看看这篇博客---C语言程序环境和预处理

本篇博客介绍了C语言程序环境和预处理.主要包含程序的翻译和运行环境和 各种预处理操作:预定义符号.各种#define 用法 undef的使用条件编译的使用 头文件包含指令 C语言程序环境和预处理一.程序的翻译环境和执行环境1.翻译环境2.运行环境二.预处理详解1.预定义符号2.#define的用…

Winform 自动升级程序

抽时间整理下升级这块的功能&#xff0c;并封装一个升级工具包。 作为winform 程序员都有一个C/S端程序绕不过的问题。那就是如何升级程序&#xff1f; 程序升级两种1.启动时强制更新 2.自动、手动获取更新&#xff0c;并确认是否升级。 今天咱们介绍&#xff0c;自动或者手…

路由进阶:route-policy实验配置

实验拓扑 网络拓扑及IP编址如上图所示&#xff1b;R1、R2运行RIPv2&#xff0c;R2、R3运行OSPF。R1上开设三个Loopback接口&#xff0c;地址分别是192.168.1.1/24、192.168.2.1/24及192.168.3.1/24&#xff0c;R1并没有在这三个接口上激活RIPv2&#xff1b; 实验需求 R1在RIP…

[附源码]计算机毕业设计JAVA航空售票管理系统

[附源码]计算机毕业设计JAVA航空售票管理系统 项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybati…

智慧安防解决方案-最新全套文件

智慧安防解决方案-最新全套文件一、建设背景二、思路架构三、建设方案二、获取 - 智慧安防全套最新解决方案合集一、建设背景 随着经济的发展和城市建设速度的加快&#xff0c;全球各地区的安全问题接踵而至&#xff0c;我国正进入“突发公共事件的高发期”和“社会高风险期”…

LabVIEW性能和内存管理 6

LabVIEW性能和内存管理 6 本文介绍LabVIEW性能和内存管理的几个建议6。 数据空间Dataspaces VI的数据存储在它的数据空间中 每个VI都有自己的数据空间 可重入VIs有多个数据空间 可重入性和数据空间 不可重入的 每个调用共享一个数据空间 一次只能执行一个调用 …

如何把PDF转换成Word文档?给大家分享三种转换方法

如何将PDF文件的格式转换成Word文档来使用呢&#xff1f;对文件的格式转换&#xff0c;相信大家最常转换格式的文件就是这两种了&#xff0c;因为它们存在我们日常的各个角落。我们在工作中需要使用Word来编辑文字&#xff0c;发送或者是下载文件&#xff0c;基本都是PDF格式。…

EN 16034门窗及配件—CE认证

门窗及配件CE认证&#xff08;欧盟强制认证&#xff09;&#xff0d;简介 在欧盟市场“CE”标志属强制性认证标志&#xff0c;以表明产品符合欧盟《技术协调与标准化新方法》指令的基本要求。这是欧盟法律对产品提出的一种强制性要求。 在门窗及配件上加贴CE标志不但可以证明其…

从零开始学习Linux(1)

Linux基本操作 文章目录Linux基本操作前言一、操作系统相关知识1.什么是操作系统&#xff1f;2.操作系统有什么作用二、Linux基本操作1.ls指令2.pwd命令3.cd命令3.热键4.touch指令5.nano指令6.start指令7.mkdir指令&#xff08;重要&#xff09;8.rmdir指令&&rm指令&am…

蓝牙学习二(连接和通讯简述)

1.简介 蓝牙的通信是双向的&#xff0c;为了创建和维护一个BLE通信连接&#xff0c;在蓝牙中引入了“角色”这一概念&#xff0c;一个BLE设备不是主机&#xff08;集中器&#xff09;就是从机&#xff08;外围设备&#xff09;角色&#xff0c;这是根据是谁发起这个连接来确定的…

JVM - G1收集器、Region、停顿时间模型、垃圾回收(建议收藏)

​ 编辑切换为居中 添加图片注释&#xff0c;不超过 140 字&#xff08;可选&#xff09; Region 使用G1收集器时&#xff0c;java堆的内存会划分为多个大小相等的独立区域&#xff08;Region&#xff09;&#xff0c;Region中也有新生代和老年代的概念&#xff0c;但是新生…

Source Insight是一个面向项目开发的程序编辑器和代码浏览器丨产品简介

Source Insight是为大型、高要求的现实世界编程项目而设计的。事实上&#xff0c;今天&#xff0c;重要的技术公司正在使用Source Insight来开发一些最大、最成功的商业硬件和软件产品。 代码分析 Source Insight会在您工作时动态解析您的源代码并维护自己的符号信息数据库&a…

Redis实战篇(六)用户签到、UV统计

一、用户签到 1、BitMap用法 我们按月来统计用户签到信息&#xff0c;签到记录为1&#xff0c;未签订则记录为0。 把每一个bit位对应每月的一天&#xff0c;形成映射关系。用0和1标识业务状态&#xff0c;这种思路称为位图&#xff08;BitMap&#xff09;。 Redis中利用strin…

qt qml

QT Quick是QT提供的一种高级用户界面工具包&#xff0c;包含对QML完美支持. Qt Quick 就是使用 QML 构建的一套类库。 Qml模块本身并没有涉及图形显示&#xff0c;所有的图形处理都由Qt Quick模块完成。 QMl是一种高效的开发UI 的语言。QML&#xff08;Qt Meta-Object Languag…

对接建行支付

前两篇文章介绍了对接微信支付和农行支付的方法&#xff0c;这篇文章介绍一下建行支付。 使用场景&#xff1a; 在微信公众号中调用微信付款&#xff0c;或者公众号内页面调用龙支付或者H5页面支付。 一、微信支付 参考建行给的接口文档 交易流程如下&#xff1a; 按照接口要求…

sync_binlog和innodb_flush_log_at_trx_commit的区别

innodb_flush_log_at_trx_commi 这个指的是写redo及后续操作&#xff0c;ib_logfile这个文件的刷新方式。 sync_binlog纯粹指的是binlog &#xff0c;如 mysql-bin0003等。 基于innodb_flush_log_at_trx_commit 的三个参数的解释。 Innodb_flush_log_at_trx_commit 0 redolo…

代码随想录59——单调栈:503下一个更大元素II、42接雨水

文章目录1.503下一个更大元素II1.1.题目1.2.解答2.42接雨水2.1.题目2.2.解答2.2.1.双指针for循环解法2.2.3.单调栈解法1.503下一个更大元素II 参考&#xff1a;代码随想录&#xff0c;503下一个更大元素II&#xff1b;力扣题目链接 1.1.题目 1.2.解答 做本题之前建议先做 73…

Spring Boot 集成freemarker模板引擎

前言 J2EE的领域中包含5大引擎&#xff0c;分别为模板引擎、流程引擎、搜索引擎、规则引擎、报表引擎。每种引擎都能解决某一方面的问题&#xff0c;模板引擎解决的是用户界面与业务数据分离&#xff0c;流程引擎解决的是驱动业务按照一定的流程执行&#xff0c;搜索引擎解决的…