python正则表达式实战——获取图片

news2025/8/6 23:33:03

我最近自学了一段时间爬虫,感觉挺有意思的,逛网页的时候,无意间发现了一个壁纸网站,我就萌生了一个想法,看能不能下下来,说干就干。

前言

目标网站:首先我们要知道我们的目标位置。

编程语言:python

环境使用

  • python 3.9
  • pycharm

模块使用

  • requests

请求头

    # python代码对于服务器发送请求 >>> 服务器接收之后(如果没有伪装)被识别出来, 是爬虫程序, >>> 不会给你返回数据
    # 客户端(浏览器) 对于 服务器发送请求 >>> 服务器接收到请求之后 >>> 浏览器返回一个response响应数据
    # headers 请求头 就是把python代码伪装成浏览器进行请求
    # headers参数字段 是可以在开发者工具里面进行查询 复制
    # 并不是所有的参数字段都是需要的
    # user-agent: 浏览器的基本信息 (相当于披着羊皮的狼, 这样可以混进羊群里面)
    # cookie: 用户信息 检测是否登录账号 (某些网站 是需要登录之后才能看到数据, B站一些数据内容)
    # referer: 防盗链 请求你的网址 是从哪里跳转过来的 (B站视频内容 / 妹子图图片下载 / 唯品会商品数据)
    # 根据不同的网站内容 具体情况 具体分析

下面就按照爬虫的思路,一步一步的进行。

一、发送请求

进入主页后,我们随便点击一个标签,我们已这个为例,其他的思路一样,后面,你会发现网址差不多,只要改部分内容即可。

import requests

url = 'https://wallhaven.cc/toplist' #toplist是可以改动的

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}

response = requests.get(url=url,headers=headers)
print(response)

运行之后,会返回<Response [200]>,说明我们请求到了网页,接下来就是获取数据。

二、获取数据

我们用开发者工具,查找我们要的源代码。

 这样,我们就找到了源地址,一个是小图(分辨率比较低),一个是图片真实的网址(高分辨率),这里我们用正则表达式去匹配它。

html_url = re.findall('class="preview" href="(.*?)"',response.text,re.S)

 通过观察我们发现,所有图片的源地址的位置都差不多。这样我们就获得了图片原网页的列表。

同理,我这里用图片地址的后缀来做图片的命名。

id = re.findall('data-wallpaper-id="(.*?)"', response.text, re.S)

html_data = zip(html_url,id)

接下来,我们就接下来就是挨个访问,保存数据就可以了。

我们先用for遍历所有图片的地址,在发送请求。

for html_url,id in html_data:

    html_spon = requests.get(html_url,headers=headers)

 这个就是我们要的高清图的地址。我们还是用正则表达式去匹配。

    pic_url = re.findall('id="wallpaper" src="(.*?)"', html_spon.text, re.S)[0]  # 图片地址

 下面就是获取高清图的数据

content = requests.get(url=pic_url,headers=headers).content

三、保存数据

    with open('wall高清\\' + str(id) + '.jpg', mode='wb') as filename:
        filename.write(content)
        print(id, "successful")

我们来看看保存之后的效果吧。

 说明:

  1. 我们会发现,随着我们鼠标的滚动,网址发生了一些变化,http://***/page=2,只是page后面的数字不一样,我们只要遍历page就可以实现多页爬取。
  2. 我们发现选择其他类型的时候,toplist变了,在这里我们只要改动这里,同样是可以运行的。
  3. 我们还可以尝试从键盘接收类型,page去爬取,还是直接通过网页获取,都是可以的。
  4. 大家可以设置sleep,防止请求频繁,被封IP。
  5. 还有就是,os文件处理问题,这里就不赘述,自己手动建立一个wall高清文件夹。

到这里,大体程序就写完了,是可以执行的。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/15731.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java Spring-AOP动态代理-JDK和CGlib实现

Java Spring-AOP CGlib和JDK动态代理实现 编码是为了解决生活中的问题&#xff0c;譬如现在我想用筷子吃饭的时候看手机&#xff0c;那么首先会有两个对象。 现在如果是面向对象编程思想&#xff0c;我们会new一个筷子对象&#xff0c;new一个手机对象&#xff0c;然后先调用…

Linux 命令 —— feh

Linux 命令 —— feh1. 介绍2. 模式-重要&#xff01;2.1 模式对比3. 参数说明3. 常见使用方式1. 介绍 本教程基于版本 feh 2.23.2. 命令&#xff1a;feh feh是一个基于模式的图像查看器。虽然它也可以由(图形化的)文件管理器启动以查看图像&#xff0c;但它特别针对需要快速…

函数传址,但无法改变xy数据问题

目录 问题 正确代码 两者区别 开启调试 设置监视的变量 逐过程调试 在自定义函数中调试 跳出自定义函数 对正确的代码进行调试 进入自定义函数 跳出自定义函数 为什么说编译器有问题 问题 今天遇到一个很有意思的问题分享一下。他写了一个交换数据的函数&#xf…

看一眼就会的k8s权限管理手把手教学

Kubernetes Kubernetes使用RBAC授权Kubernetes一、API概述1.Role 和 ClusterRole1.RoleBinding和ClusterRoleBinding二、使用步骤&#xff08;Role及RoleBinding为例&#xff09;1、创建user用户证书2、创建集群、用户1、创建集群配置文件2、创建基于集群和新用户的上下文3、给…

【java进阶02:抽象类和接口】类与类之间的关系 抽象类与接口的区别

目录 抽象类 接口 抽象类 什么是抽象类 /*类————>对象 &#xff1a;实例化 对象————>类 &#xff1a;抽象抽象类:1、什么是抽象类&#xff1f;类和类之间具有共同特征&#xff0c;将这些共同特征提取出来&#xff0c;形成的就是抽象类类本身是不存在的&…

python 实现MAC泛洪与ARP欺骗

声明&#xff1a;本文章的一切内容仅用于交流与学习 目录 一、Python scapy 二、MAC泛洪 三、ARP欺骗 一、Python scapy scapy提供了构造、发送、接收、分析数据包的功能 scapy的内容很多这里只说明要用到的内容 RandMAC&#xff1a;自动生成一个随机的MAC地址 packet Et…

【SpringBoot】idea创建SpringBoot项目及注解配置相关应用

文章目录SpringBoot&#xff1a;一、简言二、SpringBoot作用三、核心功能四、创建springBoot项目1、新建SpringBoot&#xff08;maven基础下&#xff09;2、next---选版本导jar包3、创建后的pom.xml4、SpringBoot启动类六、测试项目1.项目构建&#xff1a;2.数据源注入dao层---…

【爬虫系列】Python爬虫实战--招聘网站的职位信息爬取

一、分析 1. 需求分析 从网上找工作&#xff0c;大家一般都会通过各种招聘网站去检索相关信息&#xff0c;今天利用爬虫采集招聘网站的职位信息&#xff0c;比如岗位名称&#xff0c;岗位要求&#xff0c;薪资&#xff0c;公司名称&#xff0c;公司规模&#xff0c;公司位置&…

状态机总结(简洁)

一、概念 状态机简写为 FSM&#xff08;Finite State Machine&#xff09;&#xff0c;也称为同步有限状态机&#xff0c;我们一般简称为状态机&#xff0c;之所以说“同步”是因为状态机中所有的状态跳转都是在时钟的作用下进行的&#xff0c;而“有限”则是说状态的个数是有…

【面试题】绝对定位和相对定位

absolute和relative分别依据什么定位&#xff1f; relative依据自身定位absolute依据最近一层的定位元素定位&#xff0c;如果上层没有定位元素&#xff0c;则依据body定位 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8&…

学C/C++想提升功底 可以花点时间看看这篇博客---C语言程序环境和预处理

本篇博客介绍了C语言程序环境和预处理.主要包含程序的翻译和运行环境和 各种预处理操作:预定义符号.各种#define 用法 undef的使用条件编译的使用 头文件包含指令 C语言程序环境和预处理一.程序的翻译环境和执行环境1.翻译环境2.运行环境二.预处理详解1.预定义符号2.#define的用…

Winform 自动升级程序

抽时间整理下升级这块的功能&#xff0c;并封装一个升级工具包。 作为winform 程序员都有一个C/S端程序绕不过的问题。那就是如何升级程序&#xff1f; 程序升级两种1.启动时强制更新 2.自动、手动获取更新&#xff0c;并确认是否升级。 今天咱们介绍&#xff0c;自动或者手…

路由进阶:route-policy实验配置

实验拓扑 网络拓扑及IP编址如上图所示&#xff1b;R1、R2运行RIPv2&#xff0c;R2、R3运行OSPF。R1上开设三个Loopback接口&#xff0c;地址分别是192.168.1.1/24、192.168.2.1/24及192.168.3.1/24&#xff0c;R1并没有在这三个接口上激活RIPv2&#xff1b; 实验需求 R1在RIP…

[附源码]计算机毕业设计JAVA航空售票管理系统

[附源码]计算机毕业设计JAVA航空售票管理系统 项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybati…

智慧安防解决方案-最新全套文件

智慧安防解决方案-最新全套文件一、建设背景二、思路架构三、建设方案二、获取 - 智慧安防全套最新解决方案合集一、建设背景 随着经济的发展和城市建设速度的加快&#xff0c;全球各地区的安全问题接踵而至&#xff0c;我国正进入“突发公共事件的高发期”和“社会高风险期”…

LabVIEW性能和内存管理 6

LabVIEW性能和内存管理 6 本文介绍LabVIEW性能和内存管理的几个建议6。 数据空间Dataspaces VI的数据存储在它的数据空间中 每个VI都有自己的数据空间 可重入VIs有多个数据空间 可重入性和数据空间 不可重入的 每个调用共享一个数据空间 一次只能执行一个调用 …

如何把PDF转换成Word文档?给大家分享三种转换方法

如何将PDF文件的格式转换成Word文档来使用呢&#xff1f;对文件的格式转换&#xff0c;相信大家最常转换格式的文件就是这两种了&#xff0c;因为它们存在我们日常的各个角落。我们在工作中需要使用Word来编辑文字&#xff0c;发送或者是下载文件&#xff0c;基本都是PDF格式。…

EN 16034门窗及配件—CE认证

门窗及配件CE认证&#xff08;欧盟强制认证&#xff09;&#xff0d;简介 在欧盟市场“CE”标志属强制性认证标志&#xff0c;以表明产品符合欧盟《技术协调与标准化新方法》指令的基本要求。这是欧盟法律对产品提出的一种强制性要求。 在门窗及配件上加贴CE标志不但可以证明其…

从零开始学习Linux(1)

Linux基本操作 文章目录Linux基本操作前言一、操作系统相关知识1.什么是操作系统&#xff1f;2.操作系统有什么作用二、Linux基本操作1.ls指令2.pwd命令3.cd命令3.热键4.touch指令5.nano指令6.start指令7.mkdir指令&#xff08;重要&#xff09;8.rmdir指令&&rm指令&am…

蓝牙学习二(连接和通讯简述)

1.简介 蓝牙的通信是双向的&#xff0c;为了创建和维护一个BLE通信连接&#xff0c;在蓝牙中引入了“角色”这一概念&#xff0c;一个BLE设备不是主机&#xff08;集中器&#xff09;就是从机&#xff08;外围设备&#xff09;角色&#xff0c;这是根据是谁发起这个连接来确定的…