pythoin爬虫2之利用cookie进行登录

news2025/10/28 7:49:58

python爬虫2之利用cookie进行登录

利用requests模拟post方法
cookies的获取
session
综合实例
拓展：实现时间间隔（第一次抓取后间隔...秒进行下一次抓取）

利用requests模拟post方法

requests.post(url=,data=,hearders=)

url即要解析的网址
data即是向服务器添加的信息；注意类型必须为字典
hearders此处常设置用户代理User-Agent

此处以百度翻译为例子，打开百度翻译输入相关信息观察，如下图所示：

在这里插入图片描述

例如requests实现代码如下：

#百度翻译栗子
import requests
url="https://fanyi.baidu.com/sug"
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Safari/537.36 Edg/104.0.1293.70'
}
#要添加的信息
data={
    'kw':'hello'
}
#post方法
response=requests.post(url=url,headers=headers,data=data)
#response.json()表示以.json形式展示
dic_obj=response.json()
#访问字典中值
results=dic_obj['data']
#循环输出结果
for result in results:
    print(result)

运行效果如下：
在这里插入图片描述

cookies的获取

cookie中文名称为小型文件系统，由于HTTP是一种无状态的协议，某些网站为了辨别用户身份、进行会话跟踪故产生了cookie;cookie多用于判断用户是否登录

import requests
response=requests.get("https://ffyx.vip")

#获取cookie对象
cookiejar=response.cookies
print(type(cookiejar))
print(cookiejar)

#将获取到的cookie对象转换为字典型
cookiedict=requests.utils.dict_from_cookiejar(cookiejar)
print(type(cookiedict))
print(cookiedict)

运行效果如下图所示：
在这里插入图片描述

session

session代表一次用户会话，从客户端浏览器连接服务器开始，到客户端浏览器与服务器断开，用户可以理解为一通电话，从拨打到挂断

创建session对象

session变量名=requests.session()

post模拟用户登录操作保存cookie值

session变量名.post('登录页面URL'，data=登录的用户名和密码等信息（数据类型为字典）)

get访问登陆后才可访问的相关页面

session变量名.get('URL')

综合实例

实现FFYX 网站的登录

用浏览器点击该网站进行登录操作观察相关URL：
在这里插入图片描述

点击我的订单确定要抓取的数据：

完整代码如下所示：

import requests
from bs4 import BeautifulSoup

# 创建session对象
ssion=requests.session()

# 登录传递的数据
data={
    'M_email':'wy2049195092@163.com',
    'M_pwd':'Wy09251010'
}

# 实现登陆操作并获取登陆后的cookie值
ssion.post('https://ffyx.top/member/login.php?action=login&from=index.php',data=data)
# 访问登陆后才能访问的页面（我的订单）
req=ssion.get('https://ffyx.top/member/product.php')
bs=BeautifulSoup(req.content,'html.parser')
# 抓取我的订单登录个人信息
results=bs.find_all('div',{'class':'col-xs-7 col-sm-3'})
for result in results:
    print(result.get_text())

运行结果如下所示：
在这里插入图片描述

拓展：实现时间间隔（第一次抓取后间隔…秒进行下一次抓取）

#导入时间模块
import time
#睡眠15秒即等待15秒
time.sleep(15)
#打印hello world
print('hello world')

运行该代码，hello world会在15秒后被打印，将其放在爬虫相关位置可实现每隔一段时间爬取下一页面

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/33393.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

pythoin爬虫2之利用cookie进行登录

python爬虫2之利用cookie进行登录

利用requests模拟post方法

cookies的获取

session

综合实例

拓展：实现时间间隔（第一次抓取后间隔…秒进行下一次抓取）

相关文章

【学习笔记18】JavaScript对象的基本认识

图像处理技术：数字图像分割 ------ 图像分割、边界分割（边缘检测）、区域分割

opencv之修改尺寸、灰度转换（python）

【单目标优化求解】贪婪非分级灰狼算法求解单目标优化问题（G-NHGWO）【含Matlab源码 2005期】

西电通信技术基础实验

IMX6ULL + SPI LCD（驱动IC ILI9341）显示简单的QT界面

【前端内容学习】vue的引用，下载，语法

蓝鲸研运体系在腾讯内的应用实践

【Linux】Linux常用命令

linux64/ubuntu20.04安装NVIDIA驱动详细过程

奥迪Q3电瓶损坏问题解决思路

数理统计笔记6：假设检验

【微电网优化】粒子群优化算法的微电网调度(光伏、储能、电动车、电网交互)【含Matlab源码 2190期】

ShareSDK for Flutter

C++ 语言学习 day11 复习（3）

WebRTC入门教学和一对一通话实现

2023年天津理工大学中环信息学院专升本专业课报名考试须知

14天学习训练营之入门Pygame

Linux--信号量

Flutter高仿微信-第31篇-单聊-表情