【Python】【进阶篇】二十、Python爬虫实现Cookie模拟登录

news2025/9/18 3:08:36

目录

  • 二十、Python爬虫实现Cookie模拟登录
    • 20.1 注册登录
    • 20.2 分析网页结构
    • 20.3 编写完整程序

二十、Python爬虫实现Cookie模拟登录

在使用爬虫采集数据的规程中,我们会遇到许多不同类型的网站,比如一些网站需要用户登录后才允许查看相关内容,如果遇到这种类型的网站,又应该如何编写爬虫程序呢?Cookie模拟登录技术成功地解决了此类问题。

Cookie 是一个记录了用户登录状态以及用户属性的加密字符串。当你第一次登陆网站时,服务端会在返回的 Response Headers 中添加Cookie, 浏览器接收到响应信息后,会将 Cookie 保存至浏览器本地存储中,当你再次向该网站发送请求时,请求头中就会携带Cookie,这样服务器通过读取 Cookie 就能识别登陆用户了。

提示:我们所熟知的“记住密码”功能,以及“老用户登陆”欢迎语,这些都是通过 Cookie 实现的。

下面介绍如何实现 Cookie 模拟登录,本节以模拟登录人人网(http://life.renren.com/)为例进行讲解。

20.1 注册登录

首先你要注册一个人人网的账号,注册过中要填写个人资料,以便后续抓取数据使用。注册成功后点击上方头像进入我的主页(或左侧主页选项卡),如下图所示:

在这里插入图片描述

图1:人人网主界面

然后使用 F12 打开调试工具,刷新页面来抓取登录时的数据包(包名:timeline…开头), 并在 Headers 选项中找到请求头中的 Cookie信息,将 Cookie 值拷贝下来,以备后续使用。如下所示:

在这里插入图片描述

图2:浏览Headers信息

20.2 分析网页结构

确定了 Cookie 信息后,接下来分析页面元素结构。通过调试工具审查如图 1 所示的个人信息栏,其元素结构如下:

<div id="operate_area" class="clearfix">

<div class="tl-information">
    <ul>
    <li class="school"><span>就读于电子科技大学</span></li>
    <li class="birthday">
    <span>男生</span> 
    <span>,7月7日</span>
    </li>
    <li class="hometown">来自北京西城区</li>
    <li class="address">现居 北京</li>
    </ul>
...
</div>
</div>

由此可知其 Xpath 表达式为:

r_school = parse_html.xpath('//*[@id="operate_area"]/div[1]/ul/li[1]/span/text()'
r_birthday = parse_html.xpath('//li[@class="birthday"]/span/text()')
home_info=parse_html.xpath('//*[@id="operate_area"]/div[1]/ul/li/text()')

20.3 编写完整程序

完成程序如下所示:

import requests
from lxml import etree

class RenrenLogin(object):
  def __init__(self):
    # 个人主页的url地址
    self.url = 'http://www.renren.com/972496145/profile'
    self.headers = {
      # 将拷贝的cookie值放在此处
      'Cookie':'anonymid=kmol2vxqgd4n0e; depovince=HEB; _r01_=1; ick_login=c577d6c0-0ec3-465a-89d0-9e2b8f23e107; taihe_bi_sdk_uid=0738130d7f4532165841f09abc596215; taihe_bi_sdk_session=6277ea795624ba1eddb2603d7fe45c85; _de=1D29BC9596B9643C92425970B59A3DAE; p=3e6989099ff75de92407b791266376095; first_login_flag=1; ln_uact=18519784236; ln_hurl=http://hdn.xnimg.cn/photos/hdn321/20191017/0945/h_main_El46_9a13000ecbe41986.jpg; t=7f25f8a4d3515786d146143f63d108b25; societyguester=7f25f8a4d3515786d146143f63d108b25; id=972496145; xnsid=9770206d; wpsid=15900539012757; ver=7.0; loginfrom=null; wp_fold=0; jebecookies=59f8dfaf-8416-4dbc-a539-016a7ae1b6c5|||||',
      # 注意,useragent不能改变,否则cookie失效
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
    }

  def get_html(self):
    html = requests.get(url=self.url,headers=self.headers).text
    self.parse_html(html)

  def parse_html(self,html):
    parse_html = etree.HTML(html)
    r_school = parse_html.xpath('//*[@id="operate_area"]/div[1]/ul/li[1]/span/text()')
    print(r_school)
    r_birthday = parse_html.xpath('//li[@class="birthday"]/span/text()')
    print(r_birthday)
    home_info=parse_html.xpath('//*[@id="operate_area"]/div[1]/ul/li/text()')
    item = {}
    item['hometown'] = home_info[2].strip()
    item['address'] = home_info[3].strip()
    print(item)

if __name__ == '__main__':
  spider = RenrenLogin()
  spider.get_html()

最后关闭“人人网”网站,运行上述程序,其结果如下:

['就读于电子科技大学']
['男生', ',7月7日']
{'hometown': '来自 北京 西城区', 'address': '现居 上海'}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/434204.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【获奖案例巡展】信创先锋之星——甘肃省住房和城乡建设厅住建数据大脑

为表彰使用大数据、人工智能等基础软件为企业、行业或世界做出杰出贡献和巨大创新的标杆项目&#xff0c;星环科技自2021年推出了“新科技 星力量” 星环科技科技实践案例评选活动&#xff0c;旨在为各行业提供更多的优秀产品案例&#xff0c;彰显技术改变世界的力量&#xff0…

推进数字化转型进程,AntDB数据库协同神州云动共促新发展

当今&#xff0c;数字化转型已成为企业发展的必由之路。随着新技术的不断发展和市场的日益竞争&#xff0c;越来越多的企业开始意识到数字化转型的重要性&#xff0c;在帮助企业数字化转型过程中&#xff0c;高效的客户关系管理软件和具有灵活性、可伸缩的数字底座&#xff0c;…

关于于pyreadline模块的py3k_compat.py的函数collections.Callable兼容性问题

上图警告的官网链接地址 上图警告信息是一个警告信息,提醒你在代码中使用了即将被弃用的函数或配置项,建议及时修改以避免在将来的版本中出现不兼容的情况。具体解释如下: 这段段警告信息来自于pyreadline模块的py3k_compat.py文件,提示你使用了collections模块中即将被弃用…

code=45, title=禁止登录, message=登录失败,建议升级最新版本后重试,或通过问题反馈与我们联系。

如果你是采用 java 开发的&#xff0c;你可以参考本文章&#xff0c;java 和 kotlin 都是可以相互转换的。 在解决之前&#xff0c;先说明环境: JDK版本&#xff1a;java version "17.0.3.1" 【Oracle JDK】 Kotlin版本&#xff1a;1.8.20 采取simbot核心包开发&am…

PLATO-2: Towards Building an Open-Domain Chatbot via Curriculum Learning论文学习

一、概述 Motivation&#xff1a;直接提升PLATO的size训练不work Methods&#xff1a; 通过curriculum learning技术来构建一个高质量的开放领域机器人第一阶段&#xff1a;coarse-gained generation model&#xff1a;再简单的one-to-one框架下学习粗力度的回复生成模型第二…

【Micropython】ESP8266驱动mpu6050读取数据

【Micropython】ESP8266驱动mpu6050读取数据 &#x1f4cc;相关篇《【MicroPython ESP32】ssd1306驱动0.96“I2C屏幕mpu6050图形控制》 ✨本案例基于Thonny平台开发。✨ &#x1f516;esp8266固件版本&#xff1a;MicroPython v1.19.1 on 2022-06-18 &#x1f4cd;本篇需要使…

2023 年打破认知,这个开源 API 管理工具你应该知道

关于 API 管理工具&#xff0c;如今的市场已经把用户教育的差不多了&#xff0c;毫不夸张地说&#xff0c;如果我随机抽取一位幸运读者&#xff0c;他都能给我罗列出一二三四款大家耳熟能详的工具&#xff0c;但我今天还是要推荐这一款我上手后&#xff0c;亲测觉得不错的开源 …

深入浅出OpenGL三维渲染管线

1 前言 在计算机图形学中&#xff0c;渲染是根据模型描述在显示器上生成图像的过程。3D图形渲染管线输入根据图元顶点(如三角形、点、线和四边形)对3D模型的描述&#xff0c;并为显示器上的像素生成颜色值。 如下图所示的是3D图形渲染管线的流程。 3D图形渲染管线主要包含以…

JVM知识

类加载机制 虚拟机把class文件加载到内存&#xff0c;并对数据进行校验&#xff0c;转换解析和初始化&#xff0c;形成虚拟机可以直接使用的Java类型&#xff0c;即java.lang.class 装载(Load) ClassFile -> 字节流 ->类加载器 查找和导入class文件 1&#xff1a;通…

解决方案|以大数据为抓手,打造粮食安全智慧监管平台

食为政首&#xff0c;粮安天下&#xff0c;粮食问题一直深受总书记记挂&#xff0c;总书记多次提到&#xff1a;“中国十三亿多人口&#xff0c;吃饭主要靠自己&#xff0c;不能靠外面来解决。” 近年来粮食安全事件频发&#xff0c;中央纪委国家监委在全国开展粮食购销领域腐败…

程序员的那些事儿

作者主页&#xff1a;爱笑的男孩。 持续分享&#xff1a;机器学习、深度学习、python相关内容、日常BUG解决方法及Windows&Linux实践小技巧。 如发现文章有误&#xff0c;麻烦请指出&#xff0c;我会及时去纠正。有其他需要可以私信我或者发我邮箱:zhilong666foxmail.com 目…

编译后的hue 替换cdh默认版本hue步骤

基于hue源码编译的hue 进行替换cdh6.x.x默认带的hue版本,主要解决hue滚动条 拉的时候,一下就到末尾的bug,通过源码编译githu上的hue解决问题 一. 拷贝编译好的hue到cdh目录替换原来hue目录 三.启动hue报错 问题一:没有pip命令 pip list -bash: pip: command not found …

4.17、TCP三次握手

4.17、TCP三次握手 1.TCP三次握手2.TCP通信具体流程①三次握手②服务器客户端进行通信 1.TCP三次握手 TCP 是一种面向连接的单播协议&#xff0c;在发送数据前&#xff0c;通信双方必须在彼此间建立一条连接。所谓的“连接”&#xff0c;其实是客户端和服务器的内存里保存的一…

热点数据监测方法

在日常开发中&#xff0c;我们需要着重注意一种场景-热点数据。他可能是一种请求&#xff0c;每次请求的数据类型都是一样的&#xff1b;可能是同一个数据&#xff0c;比如页面上公用的类型数据&#xff1b;可能是同一个用户大量的请求。他们都有着同一个特点&#xff0c;瞬时爆…

Redis---哨兵服务

一、配置哨兵服务 1、哨兵服务介绍 监视 master 服务器&#xff0c;发现 master 宕机后&#xff0c;将 slave 服务器提升为 master 服务器 主配置文件&#xff1a;sentinel.conf 模板文件&#xff1a;redis-4.0.8/sentinel.conf 哨兵服务&#xff1a;类似于mha的管理节点&#…

ELK日志

思维导图 一、ELK介绍 ELK是Elasticsearch、Logstash、Kibana首字母大写缩写&#xff0c;后续加入了Beats&#xff08;Beats是负责单一用途数据采集并推送给Logstash或Elasticsearch的轻量级产品&#xff09;&#xff0c;就更名为 Elastic Stack。 Elastic Stack技术栈的功能…

JVM-GC回收机制

目录 1.判定垃圾 1.引用计数 2.可达性分析 2.清理垃圾 1.标记清除 2.复制算法 3.标记整理 4.分代回收 上文讲述的Java运行时内存划分,对于程序计数器,虚拟机栈,本地方法栈来说,生命周期是和线程有关的,随着线程而生,随线程而灭,当方法结束或者线程结束时,它们的内存就自…

细讲const与引用的关系

目录 先了解语言层面的权限 进入正题引用与const权限关系 引用权限的概念 const引用返回值时错误情况 一&#xff1a;返回到临时空间时权限问题 二&#xff1a;临时空间到调用处保存问题 结论&#xff1a;如果不对子函数内部数据修改、那么在父函数变量ret的类型可以设置…

vite+vue3+ts开发流程

目录 vue页面开发 数据类型开发 组件开发 API开发 页面中使用组件、API、数据类型 vue页面开发 <template><!-- 卡片区域--><el-card style"padding:0px;"><!-- 搜索与添加区域--><div style"margin-bottom: 15px;&quo…

SAP ABAP selection screen 动态获取字段名不需要回车触发

SAP ABAP selection screen &#xff0c;get field vaule without click Enter key. 有个需求&#xff0c;界面上几个字段的搜索帮助需要根据已输入值联动&#xff0c;比如AOP version 根据已输入的BU 过滤。 但尴尬的是在事件AT SELECTION-SCREEN ON VALUE-REQUEST FOR 中&a…