告别手动抓包!用Playwright+Python自动嗅探网页M3U8视频流(附完整代码)

news2026/4/7 16:07:22
自动化嗅探网页M3U8视频流Playwright与Python的完美结合在当今数字化时代视频内容已成为网络信息的主要载体之一。对于开发者而言如何高效地从网页中提取视频资源一直是个值得探讨的话题。传统的手动F12抓包方式不仅效率低下而且难以应对现代网页的动态加载机制。本文将介绍一种基于Playwright和Python的自动化解决方案帮助开发者轻松捕获网页中的M3U8视频流。1. 理解M3U8视频流技术M3U8作为HLSHTTP Live Streaming协议的核心组成部分已经成为在线视频传输的事实标准。这种基于文本的播放列表格式将大视频文件分割成多个小片段通常为.ts文件使播放器能够实现边下载边播放的流畅体验。一个典型的M3U8文件结构如下#EXTM3U #EXT-X-VERSION:3 #EXT-X-TARGETDURATION:10 #EXTINF:9.009, http://example.com/video1.ts #EXTINF:9.009, http://example.com/video2.tsM3U8文件的关键特征包括分片传输视频被分割为多个小文件便于网络传输自适应码率支持不同质量版本的切换加密支持可对视频片段进行AES-128加密动态更新播放列表可实时更新在实际应用中我们经常会遇到两种类型的M3U8文件类型特点处理方式基础M3U8直接包含.ts文件完整URL可直接下载相对路径M3U8仅包含文件名需拼接基础URL需要URL拼接2. Playwright自动化环境搭建Playwright是微软推出的现代化浏览器自动化工具相比传统的Selenium它具有更快的执行速度和更丰富的API。要使用Playwright进行M3U8嗅探首先需要搭建开发环境。安装步骤创建Python虚拟环境推荐python -m venv playwright_env source playwright_env/bin/activate # Linux/Mac playwright_env\Scripts\activate # Windows安装Playwright及相关依赖pip install playwright playwright install安装其他必要库pip install requests pycryptodome提示Playwright支持Chromium、Firefox和WebKit三种浏览器引擎默认会安装Chromium。如果需要其他浏览器可使用playwright install firefox或playwright install webkit命令单独安装。基础Playwright脚本结构from playwright.sync_api import sync_playwright with sync_playwright() as p: browser p.chromium.launch(headlessFalse) # 可视化模式 page browser.new_page() page.goto(https://example.com) print(page.title()) browser.close()3. 网络请求监听与M3U8捕获Playwright的强大之处在于它能够拦截和检查所有网络请求这正是我们自动嗅探M3U8文件的关键所在。实现网络请求监听的核心代码def capture_m3u8(url): m3u8_urls [] def handle_response(response): if .m3u8 in response.url or #EXTM3U in response.text(): m3u8_urls.append(response.url) print(f发现M3U8文件: {response.url}) with sync_playwright() as p: browser p.chromium.launch(headlessTrue) context browser.new_context() page context.new_page() # 注册响应监听器 page.on(response, handle_response) # 访问目标页面并等待 page.goto(url, timeout60000) page.wait_for_timeout(5000) # 等待5秒确保加载完成 # 模拟滚动触发懒加载 page.evaluate(window.scrollTo(0, document.body.scrollHeight)) page.wait_for_timeout(3000) context.close() browser.close() return m3u8_urls应对复杂场景的策略动态加载内容使用page.wait_for_selector()等待特定元素出现模拟用户交互点击、滚动等触发视频加载反爬机制设置合理的User-Agent和Referer使用context.new_page()创建隔离的浏览上下文添加随机延迟避免请求频率过高多iframe情况使用page.frames获取所有iframe为每个iframe单独设置响应监听器4. M3U8解析与视频下载获取到M3U8文件URL后下一步是解析内容并下载视频片段。这一过程需要考虑多种情况包括加密视频、相对路径等问题。M3U8解析流程下载M3U8文件内容判断加密类型无加密/AES-128提取.ts文件URL列表处理相对路径情况获取解密密钥如需要代码实现示例import requests from Crypto.Cipher import AES from Crypto.Util.Padding import unpad import os from concurrent.futures import ThreadPoolExecutor def download_ts(ts_url, save_path, headersNone): try: response requests.get(ts_url, headersheaders, timeout10) with open(save_path, wb) as f: f.write(response.content) return True except Exception as e: print(f下载失败 {ts_url}: {str(e)}) return False def process_m3u8(m3u8_url, referer): # 下载M3U8文件 headers {Referer: referer} response requests.get(m3u8_url, headersheaders) m3u8_content response.text # 解析加密信息 is_encrypted #EXT-X-KEY in m3u8_content key_uri iv None if is_encrypted: # 提取加密信息 key_line next(line for line in m3u8_content.splitlines() if line.startswith(#EXT-X-KEY)) key_uri key_line.split(URI)[1].split()[0] iv key_line.split(IV)[1].split(,)[0] if IV in key_line else None # 下载密钥 key_response requests.get(key_uri, headersheaders) key key_response.content # 提取.ts文件URL base_url m3u8_url[:m3u8_url.rfind(/)1] ts_urls [line if line.startswith(http) else base_urlline for line in m3u8_content.splitlines() if not line.startswith(#) and line.strip()] # 并行下载.ts文件 with ThreadPoolExecutor(max_workers10) as executor: for i, ts_url in enumerate(ts_urls): ts_name fsegment_{i}.ts executor.submit(download_ts, ts_url, ts_name, headers) return { ts_files: [fsegment_{i}.ts for i in range(len(ts_urls))], encrypted: is_encrypted, key: key if is_encrypted else None, iv: iv }解密AES-128加密视频def decrypt_ts_file(input_path, output_path, key, iv): with open(input_path, rb) as f: encrypted_data f.read() cipher AES.new(key, AES.MODE_CBC, iviv) decrypted_data unpad(cipher.decrypt(encrypted_data), AES.block_size) with open(output_path, wb) as f: f.write(decrypted_data)5. 视频合并与优化下载完所有.ts文件后我们需要将它们合并为完整的视频文件。虽然可以使用简单的文件拼接方式但推荐使用FFmpeg工具它能更好地处理视频编码和元数据。FFmpeg合并命令ffmpeg -f concat -safe 0 -i file_list.txt -c copy output.mp4其中file_list.txt内容格式为file segment_0.ts file segment_1.ts file segment_2.tsPython中调用FFmpeg的代码实现import subprocess def merge_with_ffmpeg(ts_files, output_path): # 生成文件列表 with open(file_list.txt, w) as f: for ts in ts_files: f.write(ffile {ts}\n) # 执行合并命令 cmd [ ffmpeg, -f, concat, -safe, 0, -i, file_list.txt, -c, copy, output_path ] try: subprocess.run(cmd, checkTrue) print(f视频已成功合并至 {output_path}) return True except subprocess.CalledProcessError as e: print(f合并失败: {str(e)}) return False性能优化建议并行下载使用线程池加速.ts文件下载断点续传记录已下载文件避免重复下载缓存管理合理使用临时文件及时清理错误重试对失败的下载任务实现自动重试机制6. 完整实现与异常处理将上述各部分整合为一个完整的解决方案并添加必要的异常处理和日志功能。完整代码结构import logging from playwright.sync_api import sync_playwright import requests from concurrent.futures import ThreadPoolExecutor, as_completed from Crypto.Cipher import AES from Crypto.Util.Padding import unpad import os import subprocess from urllib.parse import urlparse class M3U8Downloader: def __init__(self): self.logger logging.getLogger(__name__) logging.basicConfig( levellogging.INFO, format%(asctime)s - %(levelname)s - %(message)s ) def find_m3u8_urls(self, page_url): 使用Playwright查找页面中的所有M3U8 URL m3u8_urls [] def handle_response(response): if (response.url.endswith(.m3u8) or #EXTM3U in (response.headers.get(content-type, ) or ).lower() or #EXTM3U in (response.text() or )): m3u8_urls.append(response.url) self.logger.info(fFound M3U8: {response.url}) with sync_playwright() as p: browser p.chromium.launch(headlessTrue) context browser.new_context( user_agentMozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 ) page context.new_page() page.on(response, handle_response) try: page.goto(page_url, timeout60000) page.wait_for_timeout(5000) # 模拟滚动以触发懒加载 for _ in range(3): page.evaluate(window.scrollTo(0, document.body.scrollHeight)) page.wait_for_timeout(2000) except Exception as e: self.logger.error(f页面加载错误: {str(e)}) finally: context.close() browser.close() return list(set(m3u8_urls)) # 去重 def download_ts_segments(self, m3u8_url, output_diroutput): 下载M3U8中的所有TS片段 os.makedirs(output_dir, exist_okTrue) # 获取M3U8内容 headers { Referer: m3u8_url, User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 } try: response requests.get(m3u8_url, headersheaders) response.raise_for_status() m3u8_content response.text # 解析M3U8内容 base_url m3u8_url[:m3u8_url.rfind(/)1] ts_urls [] for line in m3u8_content.splitlines(): line line.strip() if line and not line.startswith(#): ts_url line if line.startswith(http) else base_url line ts_urls.append(ts_url) # 并行下载 success_count 0 with ThreadPoolExecutor(max_workers10) as executor: futures [] for i, ts_url in enumerate(ts_urls): ts_path os.path.join(output_dir, fsegment_{i}.ts) futures.append(executor.submit( self._download_file, ts_url, ts_path, headers )) for future in as_completed(futures): try: if future.result(): success_count 1 except Exception as e: self.logger.error(f下载失败: {str(e)}) self.logger.info(f下载完成: {success_count}/{len(ts_urls)}) return success_count len(ts_urls) except Exception as e: self.logger.error(fM3U8处理错误: {str(e)}) return False def _download_file(self, url, save_path, headersNone): 下载单个文件 try: response requests.get(url, headersheaders, streamTrue, timeout30) response.raise_for_status() with open(save_path, wb) as f: for chunk in response.iter_content(chunk_size8192): if chunk: f.write(chunk) return True except Exception as e: self.logger.error(f下载 {url} 失败: {str(e)}) return False def merge_video(self, ts_dir, output_path): 使用FFmpeg合并TS文件 try: # 生成文件列表 ts_files sorted( [os.path.join(ts_dir, f) for f in os.listdir(ts_dir) if f.endswith(.ts)], keylambda x: int(x.split(_)[-1].split(.)[0]) ) # 创建临时文件列表 list_file os.path.join(ts_dir, file_list.txt) with open(list_file, w) as f: for ts in ts_files: f.write(ffile {os.path.basename(ts)}\n) # 执行FFmpeg命令 cmd [ ffmpeg, -f, concat, -safe, 0, -i, list_file, -c, copy, output_path ] result subprocess.run( cmd, cwdts_dir, stdoutsubprocess.PIPE, stderrsubprocess.PIPE, textTrue ) if result.returncode ! 0: self.logger.error(f合并失败: {result.stderr}) return False self.logger.info(f视频已成功合并至 {output_path}) return True except Exception as e: self.logger.error(f合并过程中出错: {str(e)}) return False # 使用示例 if __name__ __main__: downloader M3U8Downloader() # 第一步查找M3U8 URL target_url https://example.com/video-page m3u8_urls downloader.find_m3u8_urls(target_url) if not m3u8_urls: print(未找到M3U8链接) exit(1) # 第二步下载TS片段 output_dir video_segments if downloader.download_ts_segments(m3u8_urls[0], output_dir): # 第三步合并视频 downloader.merge_video(output_dir, output_video.mp4)异常处理要点网络请求失败实现自动重试机制资源不存在检查HTTP状态码解密失败验证密钥和IV的正确性合并错误检查FFmpeg是否安装正确反爬限制添加合理的请求头和延迟7. 高级技巧与实战经验在实际项目中我们经常会遇到各种特殊情况和优化需求。以下是几个经过实战验证的高级技巧1. 处理动态生成的M3U8某些网站会使用JavaScript动态生成M3U8 URL。针对这种情况可以使用Playwright执行页面中的JavaScript代码监听WebSocket通信获取真实视频地址分析页面中的隐藏元素或数据属性2. 应对反爬机制现代视频网站通常会有多种反爬措施User-Agent检测随机切换不同的User-Agent请求频率限制添加随机延迟模拟人类操作IP限制使用代理IP池轮换行为验证使用Playwright模拟完整用户行为3. 性能优化策略增量下载仅下载新增的视频片段缓存管理避免重复下载相同内容连接复用保持HTTP连接活跃压缩传输支持gzip/deflate压缩4. 监控与自动化将脚本部署为长期运行的服务定期检查目标页面更新自动下载新内容异常通知邮件/短信下载统计与报告# 监控示例代码 import time from datetime import datetime class VideoMonitor: def __init__(self, target_url, check_interval3600): self.target_url target_url self.check_interval check_interval self.downloader M3U8Downloader() self.last_check None def run(self): while True: self._check_updates() time.sleep(self.check_interval) def _check_updates(self): current_time datetime.now().strftime(%Y-%m-%d %H:%M:%S) print(f[{current_time}] 开始检查更新...) try: m3u8_urls self.downloader.find_m3u8_urls(self.target_url) if m3u8_urls: print(f发现 {len(m3u8_urls)} 个视频资源) # 这里可以添加下载逻辑 else: print(未发现新内容) self.last_check current_time except Exception as e: print(f检查过程中出错: {str(e)})8. 安全与法律注意事项在开发和使用网络爬虫时必须始终牢记法律和道德边界。以下是一些重要考虑因素合法使用原则尊重网站的robots.txt协议不绕过明确的技术保护措施遵守网站的服务条款不用于商业盗版目的控制请求频率避免对目标服务器造成过大负担技术安全措施验证所有下载内容的安全性避免执行来自不可信源的代码妥善处理敏感信息如密钥使用HTTPS确保传输安全最佳实践建议仅用于合法授权的内容如公开可用的教学视频、公司内部培训资料等限制下载速度添加延迟模拟人类浏览行为明确用户协议如果是提供给他人使用的工具应包含明确的使用条款数据最小化仅下载必要内容不获取无关信息版权声明保留原始内容的版权信息在实际开发中建议将自动化程度控制在合理范围内并始终考虑对目标网站的影响。一个负责任的开发者应该能够在技术探索和合法使用之间找到平衡点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2481166.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…