使用Perfetto进行Settings中网络热点开启后anr分析的整体流程记录

news2026/3/27 2:14:41
目录一.背景二.Perfetto使用流程阶段一抓取 Perfetto Trace 文件1. 指令核心解析2. 数据源功能详解 (这些是抓取的“维度”)3. 该指令的作用场景阶段二导入并认识 Perfetto UI 面板1. 致命异常Duration: (Did not end)2. 定位到的业务范围1. 核心异常CPU 4 被 dnsmasq 进程占满2. 线程唤醒关系system_server 在“垂死挣扎”3. 渲染线程 (RenderThread) 的反常表现综合诊断结果三.结合日志排查1. 核心含义dnsmasq 疯了CPU 占用接近 100%2. 为什么会导致 Settings ANR3. dnsmasq 是干什么的TetherOffload HAL 与 dnsmasq1. 技术背景为什么需要 TetherOffload2. TetherOffload 的作用3. 两者的具体协作与区别协作流程4. 总结它们是互补的四.修复TetherOffload 相关内容后一.背景测试提了一个问题Settings中打开热点后直接卡死然后anr之前我一般都是通过日志和AndroidStudio Profile进行分析的需要看我之前分析流程的可以参考如下资料https://blog.csdn.net/gongjdde/article/details/134859886本次使用Perfetto结合日志进行排查二.Perfetto使用流程阶段一抓取 Perfetto Trace 文件抓取数据主要有两种方式对于排查系统层面的服务死锁和底层阻塞强烈推荐使用命令行方式因为你可以精确配置需要监控的数据源。1. 命令行方式推荐通过adb连接你的测试设备在终端输入以下命令。这个命令会抓取 CPU 调度、系统调用、Binder 通信以及核心系统服务的状态。adb shell perfetto -o /data/misc/perfetto-traces/trace_file.perfetto-trace -t 15s sched freqs idle am wm gfx view binder_driver hal dalvik res-t 15s表示持续抓取 15 秒。你可以先敲下回车开始录制然后在手机上迅速复现那个“打开网络设置导致卡顿”的操作。以下是对该指令各部分的详细拆解1. 指令核心解析adb shell: 通过 ADB 在 Android 设备内部执行命令。perfetto: 调用系统中的性能跟踪程序。-o /data/misc/perfetto-traces/trace_file.perfetto-trace:指定输出文件的存储路径。路径通常位于/data/misc/perfetto-traces/因为该目录具有合适的读写权限抓取完毕后可以用adb pull将文件传回电脑进行分析。-t 15s: 指定跟踪时长为 15 秒。执行后系统会立即开始记录15 秒后自动停止并保存文件。[数据源列表]: 紧跟在末尾的参数sched freqs idle am wm gfx view binder_driver hal dalvik res是数据源Data Sources用于指定需要记录哪些内核和应用层的事件。2. 数据源功能详解 (这些是抓取的“维度”)这些参数决定了 Trace 文件中包含哪些信息sched:调度器事件。记录 CPU 线程的调度信息Task 切换、唤醒、休眠。这是分析“卡顿”最核心的数据。freqs:频率信息。记录 CPU 频率CPU Freq的变化。用于分析是否存在 CPU 降频导致性能不足。idle:空闲状态。记录 CPU 进入 Idle 状态的时间点分析功耗问题。am(Activity Manager): 记录 Android 系统的 Activity 启动、生命周期事件。wm(Window Manager): 记录窗口管理器的相关事件比如窗口的显示、隐藏、Layer 的刷新。gfx(Graphics):图形相关。记录 SurfaceFlinger、Vsync、渲染帧等关键信息分析掉帧Jank必备。view:View 系统事件。记录 Android UI 控件的 Measure、Layout、Draw 流程。binder_driver:Binder 驱动事件。记录进程间通信IPC的详细耗时分析是哪个服务调用导致了阻塞。hal:HAL 层事件。记录硬件抽象层如 Camera、传感器、音频 HAL的调用分析硬件驱动层的延迟。dalvik:虚拟机事件。记录 GC垃圾回收、JIT 编译等事件。res:资源加载。记录一些资源加载、系统属性的变化。3. 该指令的作用场景这个指令通常用于排查性能卡顿Jank/Lag或功耗异常。场景 1分析 UI 卡顿通过gfx和view可以看到 UI 刷新是否掉帧。通过sched和binder_driver可以分析是否因为某个线程一直抢占 CPU 或被某个 Binder 调用阻塞导致界面无法及时响应。场景 2分析应用启动慢通过am和wm可以看到 Activity 启动的完整过程配合binder_driver找出在哪个通信环节耗时过长。场景 3分析功耗或发热通过freqs和idle结合sched查看 CPU 是否一直保持高频或者频繁进行不必要的线程唤醒。完成后将生成的 Trace 文件 pull 到电脑上adb pull /data/misc/perfetto-traces/trace_file.perfetto-trace .阶段二导入并认识 Perfetto UI 面板拿到 Trace 文件后我们需要使用 Google 提供的网页端工具来可视化分析。1. 打开网页加载数据在浏览器推荐 Chrome 或 Edge中打开官方分析工具ui.perfetto.dev 将刚才导出的.perfetto-trace文件直接拖拽进网页中央。2. 核心操作快捷键必记Perfetto 的界面信息量极其庞大单纯依靠鼠标拖拽效率很低熟练使用以下快捷键是必备技能W / S放大 / 缩小时间轴Zoom In / Out。这在精确定位毫秒级耗时时非常有用。A / D向左 / 向右平移时间轴。M高亮选中一段区域。鼠标框选一段时间后按 M可以固定高亮用于查看这段时间内的系统整体负载。如下是将trace文件导入到网页后的界面1. 致命异常Duration: (Did not end)这是最核心的发现。含义performCreate这个方法一直没有执行完。分析在 Perfetto 录制的这段时间里甚至直到录制结束主线程都卡在这个方法内部。按照 Android 机制主线程被阻塞超过 5 秒就会触发 ANR。你这里的阻塞长度已经贯穿了整个 Trace 视图说明主线程彻底“死”在了SubSettings的创建过程中。2. 定位到的业务范围Name:performCreate:com.android.settings.SubSettings分析这说明点击设置项大概率是网络相关的二级菜单后系统尝试初始化SubSettings页面。所有该页面的Fragment初始化、onCreate生命周期逻辑、以及各种Preference状态的获取都在这个方法里同步执行。然后我们继续看上面有没有什么异常1. 核心异常CPU 4 被dnsmasq进程占满在第二张图的CPU 4 Scheduling轨道上你可以看到大段的橙黄色块上面标注着进程名为dnsmasq [5252]。现象dnsmasq在 CPU 4 上几乎是持续运行的这意味着它在进行高强度的任务。关联性dnsmasq通常与热点Tethering和 DNS 转发相关。结合你之前日志里提到的tetheroffload报错这说明在你打开设置页面的那一刻热点相关的网络后台进程正在发生严重的异常可能是死循环或大量的网络包处理。2. 线程唤醒关系system_server在“垂死挣扎”查看右下角的Scheduling Latency面板Wakeup信息显示RenderThread 4589是被system_server [1926]里的binder:1926_5唤醒的。分析这证实了system_server一直在试图与Settings进程通信。但由于dnsmasq占用了大量资源或者dnsmasq阻塞了某种系统级的网络锁Mutex导致通信效率极低。3. 渲染线程 (RenderThread) 的反常表现现象第一张图显示main thread卡死在performCreate紫色长条但下方的RenderThread却有密集的绿条和prepareAndDraw。解释这说明Settings的 UI 逻辑层主线程已经彻底瘫痪了但渲染层RenderThread还在尝试刷新画面比如显示一个进度条或者处理上一次的绘制请求。这种“主线程死锁渲染线程还在跑”的现象是典型的同步逻辑阻塞。综合诊断结果这是一个由网络子系统dnsmasq/Tethering引起的系统级阻塞导致的 ANR。根源dnsmasq进程异常占用了核心 CPU 资源。连锁反应当你进入SubSettings网络设置页面时主线程发起了一个同步请求去获取热点或网络配置。死锁由于dnsmasq处于异常状态或者它持有了某个底层的硬件访问锁导致Settings发出的请求永远得不到回应。结果主线程在performCreate阶段永久等待5 秒后触发 ANR。上述是整个Perfetto的排查流程它排查出可能是网络子系统dnsmasq/Tethering引起的系统级阻塞导致的 ANR。然后我们继续结合日志进行后续排查三.结合日志排查首先抓取dnsmasq日志 执行adb logcat | grep dnsmasq看看有没有timeout或failed to bind之类的报错。这几行日志是ANR应用无响应调查的“冒烟证据”。它解释了为什么你的Settings进程会卡死系统资源被耗尽了。具体分析如下1. 核心含义dnsmasq疯了CPU 占用接近 100%日志显示dnsmasq进程号 5252持续占用了95% - 98%的 CPU 资源。User (用户态)vsKernel (内核态)在00:00:47之后的记录中dnsmasq的Kernel 占用高达 85% 左右。这说明dnsmasq并不是在做复杂的计算而是陷入了某种严重的内核级阻塞或死循环。它可能在不停地尝试读写一个损坏的网卡接口、处理海量的恶意网络包或者在不停地申请/释放内核锁。2. 为什么会导致SettingsANR结合你之前的 Perfetto 图表逻辑链条现在闭合了抢占资源dnsmasq几乎吃光了 CPU 资源尤其是你截图里看到的 CPU 4。Binder 响应超时当你在Settings里打开网络设置时主线程需要通过 Binder 去问system_server现在的网络状态。由于 CPU 被dnsmasq占满加上可能存在的内核锁竞争这个 Binder 请求发不出去或者回不来。主线程挂起主线程在performCreate阶段等不到数据直接卡死。3.dnsmasq是干什么的在 Android 中dnsmasq主要负责热点Tethering为连接到你手机热点的设备分配 IP 地址DHCP和解析域名DNS。如果你当时开启了热点或者有设备正在频繁尝试连接你的热点可能触发了它的 Bug。然后我们看下logcat中关键的日志如下日志是一直反复出现2025-09-10 14:20:31.719 3214-3251 HidlServiceManagement com.android.networkstack.process W Waited one second for android.hardware.tetheroffload.config1.0::IOffloadConfig/default 2025-09-10 14:20:31.719 692-692 hwservicemanager hwservicemanager I Since android.hardware.tetheroffload.config1.0::IOffloadConfig/default is not registered, trying to start it as a lazy HAL (if its not configured to be a lazy HAL, it may be stuck starting or still starting). 2025-09-10 14:20:31.720 3214-3251 HidlServiceManagement com.android.networkstack.process I getService: Trying again for android.hardware.tetheroffload.config1.0::IOffloadConfig/default... 2025-09-10 14:20:31.720 1929-6233 system_server system_server I libdebuggerd_client: started dumping process 1529 2025-09-10 14:20:31.721 692-6363 libc hwservicemanager W Unable to set property ctl.interface_start to android.hardware.tetheroffload.config1.0::IOffloadConfig/default: error code: 0x20 2025-09-10 14:20:31.722 692-6363 hwservicemanager hwservicemanager I Tried to start android.hardware.tetheroffload.config1.0::IOffloadConfig/default as a lazy service, but was unable to. Usually this happens when a service is not installed, but if the service is intended to be used as a lazy service, then it may be configured incorrectly.日志中提到android.hardware.tetheroffload.config服务启动失败虽不一定是直接原因但这类驱动或 HAL 层的异常往往会导致system_server挂起进而引发连锁反应导致应用 ANR。然后我们找一下TetherOffload HAL与dnsmasq的关系TetherOffload HAL与dnsmasq1. 技术背景为什么需要 TetherOffload在传统的 Android 热点共享模式下数据包的转发路径是客户端 - 手机 Wi-Fi 网卡 - 内核网络协议栈 - 用户空间的 dnsmasq/netd - 内核协议栈 - 移动网络 (LTE/5G)问题所在数据包需要在“内核态”和“用户态”之间来回切换Context Switching。如果手机开启热点且连接设备较多CPU 需要处理大量中断和数据拷贝导致耗电增加、发热严重、带宽受限。2. TetherOffload 的作用TetherOffload全称 Tethering Offload HAL旨在将这些繁重的“数据转发”任务从 CPU 卸载到硬件如基带芯片、网络加速引擎或专门的 SoC 卸载模块上处理。它的核心逻辑只要连接状态和路由规则稳定后续的数据包就不再经过用户空间的软件栈直接由硬件电路在 Wi-Fi 网卡和蜂窝数据网卡之间进行“物理转发”。3. 两者的具体协作与区别特性dnsmasqTetherOffload HAL定位控制平面(Control Plane)数据平面(Data Plane)职责负责 DHCP 分配、DNS 缓存、路由表维护负责实际的数据报文转发、NAT 映射运行层级用户空间 (User Space)内核空间 (Kernel) 硬件驱动存在意义告诉网络“谁是谁去哪儿”告诉硬件“怎么飞速传输数据”协作流程启动阶段dnsmasq或 Android 现在的netd方案首先运行处理 DHCP 请求为连接的设备分配 IP并设置防火墙规则iptables/nftables。配置阶段Android 系统将这些连接信息和转发规则通过TetherOffload HAL下发给底层的硬件驱动。运行阶段一旦连接稳定TetherOffload 激活。此时绝大部分数据流绕过用户空间的 dnsmasq由硬件直接处理只有极少数控制指令或不符合卸载规则的流量才会回退到软件栈处理。4. 总结它们是互补的dnsmasq 是“大脑”负责处理逻辑复杂但频率不高的网络控制任务比如刚连上热点时 IP 怎么发、域名怎么解析。TetherOffload 是“肌肉”负责处理极其枯燥、耗费资源的纯数据流转发任务。简而言之在现代 Android 系统中TetherOffload 极大地降低了对 dnsmasq 处理高并发数据流的依赖。现在的 Android 倾向于让 dnsmasq 只负责轻量级的 IP 分配而将沉重的流量处理交给 TetherOffload 以提升系统性能。如果你的设备关闭了 TetherOffload例如在某些深度定制的系统或极客修改环境下你会明显感觉到热点速度下降且手机发热加剧因为所有的流量压力都回到了 CPU 和软件进程上。可以看出来TetherOffload异常可能就会导致dnsmasq异常四.修复TetherOffload相关内容后由于TetherOffload这块是hal层逻辑所以是其他同事修复的然后我们就看修复后的变化有没有解决问题首先点击界面没有anr看了然后我们看看Perfetto界面的变化如下是修复后的Perfetto界面可以看出来Settings的performCreate:com.android.settings.SubSettings耗时56ms时间大大缩短了不会导致anr然后继续看可以看出来几乎没有dnsmasq进程占用cpu了所以综合分析是TetherOffload异常导致dnsmasq进程一直在疯狂吃cpu导致Settings没法响应了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2452934.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…