记一次 .NET 某工厂无人车调度系统 线程爆高分析

news2025/7/19 14:30:32

一:背景

1. 讲故事

前些天有位朋友找到我,说他程序中的线程数爆高,让我帮忙看下怎么回事,这种线程数爆高的情况找问题相对比较容易,就让朋友丢一个dump给我,看看便知。

二:为什么会爆高

1. 查看托管线程

别人说的话不一定是真,得自己拿数据出来说话,可以用 !t 命令观察一下便知。


0:000> !t
ThreadCount:      4683
UnstartedThread:  0
BackgroundThread: 4663
PendingThread:    0
DeadThread:       19
Hosted Runtime:   no
                                                                                                            Lock  
 DBG   ID     OSID ThreadOBJ           State GC Mode     GC Alloc Context                  Domain           Count Apt Exception
   0    1     cc44 00000268048778C0  202a020 Preemptive  0000000000000000:0000000000000000 00000268048c6d50 -00001 MTA 
   ...
4670 4679     51bc 0000026D143F0420  302b220 Preemptive  0000000000000000:0000000000000000 00000268048c6d50 -00001 MTA (Threadpool Worker) 
4671 4680     3a68 0000026D143F52E0  302b220 Preemptive  0000000000000000:0000000000000000 00000268048c6d50 -00001 MTA (Threadpool Worker) 
4672 4681     337c 0000026D143F1140  302b220 Preemptive  0000026A88AAF5B8:0000026A88AB08D0 00000268048c6d50 -00001 MTA (Threadpool Worker) 
4673 4682    188d4 0000026D143F0AB0  302b220 Preemptive  000002698881A760:000002698881C0B8 00000268048c6d50 -00001 MTA (Threadpool Worker) 
4674 4683     4bcc 0000026D143EF700  302b220 Preemptive  0000026B889C4488:0000026B889C5E18 00000268048c6d50 -00001 MTA (Threadpool Worker) 

从卦中信息看确实有 4600+ 的线程,说明确实存在问题,接下来用 ~*e !clrstack 观察每一个线程都在做什么,线程太多没法全部输出完毕,不过很容易的看到有大量的线程卡在 RoutingService.Push 上,截图如下:

接下来就是观察下这个 Push 方法的逻辑,发现卡死在 Result 上,整理后的代码大概如下:


private readonly SemaphoreSlim slim = new SemaphoreSlim(1, 1);

public void Push(string xxx, xxx xxx)
{
    int num = (xxx.Serial = GetSerial().Result);
}

private async Task<int> GetSerial()
{
    await slim.WaitAsync();
    try
    {
        Interlocked.Increment(ref serial);
    }
    finally
    {
        slim.Release();
    }
    return serial;
}

上面的代码看起来挺奇葩的,为什么 GetSerial() 中不直接用 Interlocked.Increment() 呢?套一个 SemaphoreSlim 显得非常多余。

先不管多余不多余,既然 Result 得不到值,就说明这个异步方法得不到完成,那为什么得不到完成呢?

2. 为什么异步得不到完成

熟悉 SemaphoreSlim.WaitAsync() 的朋友应该知道,这里涉及不到异步IO,所以这个是假异步,本质上就是动态生成了一个串联的 Task<bool>,要想知道得不到完成的根本原因,还得要挖一挖此时的 slim 信号量情况。


0:000> !do 000002690664b5a0
Name:        System.Threading.SemaphoreSlim
MethodTable: 00007ff894e56fc0
EEClass:     00007ff894e3f230
Tracked Type: false
Size:        64(0x40) bytes
File:        D:\xxx\System.Private.CoreLib.dll
Fields:
              MT    Field   Offset                 Type VT     Attr            Value Name
00007ff8948094b0  4000c2e       28         System.Int32  1 instance                0 m_currentCount
00007ff8948094b0  4000c2f       2c         System.Int32  1 instance                1 m_maxCount
00007ff8948094b0  4000c30       30         System.Int32  1 instance                0 m_waitCount
00007ff8948094b0  4000c31       34         System.Int32  1 instance                0 m_countOfWaitersPulsedToWake
00007ff8962871e0  4000c32        8 ...Private.CoreLib]]  0 instance 000002690664b5e0 m_lockObjAndDisposed
00007ff894e555f0  4000c33       10 ....ManualResetEvent  0 instance 0000000000000000 m_waitHandle
00007ff894e57870  4000c34       18 ...horeSlim+TaskNode  0 instance 0000026b86919a30 m_asyncHead
00007ff894e57870  4000c35       20 ...horeSlim+TaskNode  0 instance 0000026b889c4378 m_asyncTail
00007ff894a4a1f0  4000c36      888 ...Private.CoreLib]]  0   static 00000268864f83a0 s_cancellationTokenCanceledEventHandler

从卦中看当前的 m_currentCount=0,表明当前的信号量被消费完了,所以其他的线程都在等待就能很好理解,接下来的问题是那个从 1->0 的持有线程为什么不归还? 这个就比较难搞了,可以从如下两个思路思考:

  • 观察 Result

首先怀疑是不是 Result 引发的死锁,用 !eeversion 看了下是 asp.net core ,并没有所谓的同步上下文,所以这个问题不存在。


0:000> !eeversion
6.0.2023.32017 free
6,0,2023,32017 @Commit: a08d9ce2caf02455c0b825bcdc32974bdf769a80
Server mode with 8 gc heaps
SOS Version: 7.0.8.30602 retail build

  • 观察代码

因为 SemaphoreSlim 并不记录持有线程,windbg 在这里就起不到很好的效果,不过仔细阅读代码,发现应该将 await slim.WaitAsync(); 放到 try 中更合理一点,否则无法保证 WaitAsyncRelease 一定是成双成对的,截图如下:

3. 什么时候开始阻塞的

仔细观察这个 GetSerial 方法,看看里面的 serial 值就知道大概是进行到哪一步才出的问题。


0:4674> !DumpObj /d 000002690664b258
Name:        xxx.RoutingService
MethodTable: 00007ff895283ed0
EEClass:     00007ff89526ae08
Tracked Type: false
Size:        112(0x70) bytes
File:        D:\xxx\xxx.dll
Fields:
              MT    Field   Offset                 Type VT     Attr            Value Name
...
00007ff894e56fc0  4000214       48 ...ing.SemaphoreSlim  0 instance 000002690664b5a0 slim
00007ff8948094b0  4000215       60         System.Int32  1 instance             9061 serial

从卦中看已经自增到了 9061 ,然后因为某种原因导致wait 和 release 不匹配了,像这种情况线程池也会有大量的任务积压,可以用 !tp 观察下。


0:4674> !tp
logStart: 33
logSize: 200
CPU utilization: 22 %
Worker Thread: Total: 4652 Running: 4652 Idle: 0 MaxLimit: 32767 MinLimit: 8
Work Request in Queue: 0
--------------------------------------
Number of Timers: 1
--------------------------------------
Completion Port Thread:Total: 2 Free: 2 MaxFree: 16 CurrentLimit: 2 MaxLimit: 1000 MinLimit: 8

细心的朋友会发现这里的 Work Request in Queue: 0 ,既然是 0 何来积压?其实这是 sos 的bug,我们需要自己到线程池队列中提取,从当前的线程栈上寻找 ThreadPoolWorkQueue 对象即可。


0:4674> !dso
OS Thread Id: 0x4bcc (4674)
000000EF384FF5C8 0000026b06544848 System.Threading.ThreadPoolWorkQueue

0:4674> !DumpObj /d 0000026b06544848
Name:        System.Threading.ThreadPoolWorkQueue
MethodTable: 00007ff894e59d80
EEClass:     00007ff894ee01d0
Tracked Type: false
Size:        168(0xa8) bytes
File:        D:\xxx\System.Private.CoreLib.dll
Fields:
              MT    Field   Offset                 Type VT     Attr            Value Name
00007ff89476bf38  4000c61       18       System.Boolean  1 instance                0 loggingEnabled
00007ff89476bf38  4000c62       19       System.Boolean  1 instance                0 _dispatchTimeSensitiveWorkFirst
00007ff89637fc20  4000c63        8 ...Private.CoreLib]]  0 instance 0000026b065448f0 workItems
00007ff89637fe00  4000c64       10 ...Private.CoreLib]]  0 instance 0000026b06544930 timeSensitiveWorkQueue
00007ff894e59d10  4000c65       20 ...acheLineSeparated  1 instance 0000026b06544868 _separated

0:4674> !ext dcq 0000026b065448f0
System.Collections.Concurrent.ConcurrentQueue<System.Object>
   1 - dumpobj 0x0000026806c782f8
...
119419 - dumpobj 0x000002690a097658
119420 - dumpobj 0x000002690a097810
119421 - dumpobj 0x000002690a0981a8
---------------------------------------------
119421 items

从卦中可以看到大概有12w的积压。上面就是我的完整分析思路,最后就是告诉朋友最好的办法就是去掉多余累赘的 SemaphoreSlim ,直接用同步的方式执行 Interlocked.Increment(ref serial) 即可,简单粗暴。

三:总结

这次线程爆高的事故原因还是挺有意思的,用了一个双同步来获取 serial 值,感觉像是一种聪明反被聪明误,代码一定要简单粗暴,代码越少bug越少。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1157466.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【java学习—十一】泛型(1)

文章目录 1. 为什么要有泛型Generic2. 泛型怎么用2.1. 泛型类2.2. 泛型接口2.3. 泛型方法 3. 泛型通配符3.1. 通配符3.2. 有限制的通配符 1. 为什么要有泛型Generic 泛型&#xff0c;JDK1.5新加入的&#xff0c;解决数据类型的安全性问题&#xff0c;其主要原理是在类声明时通过…

精选10款Python可视化工具,请查收

今天我们会介绍一下10个适用于多个学科的Python数据可视化库&#xff0c;其中有名气很大的也有鲜为人知的。 1、matplotlib matplotlib 是Python可视化程序库的泰斗。经过十几年它仍然是Python使用者最常用的画图库。它的设计和在1980年代被设计的商业化程序语言MATLAB非常接近…

的修工单管理系统好用吗?工单系统应该怎么选?

在当今的数字化时代&#xff0c;企业运营效率的高低往往取决于其内部管理工具的先进性和实用性。工单管理系统作为企业运营中的重要工具&#xff0c;其作用日益凸显。市场上存在许多工单管理系统&#xff0c;但“的修”以其独特的产品差异化和优势&#xff0c;在竞争中独树一帜…

Linux C语言进阶-D3~D4字符串处理函数

求字符串长度函数strlen、字符串拷贝strcpy、字符串连接strcat、字符串比较strcmp 头文件<string.h> 求字符串长度strlen函数 1、计算字符串长度&#xff0c;并且遇到\0结束&#xff0c;返回字符串长度 2、 计算字符串长度&#xff0c;遇到转义字符&#xff0c;\不算在内…

基于ASP.NET MVC + Bootstrap的仓库管理系统

基于ASP.NET MVC Bootstrap的仓库管理系统。源码亲测可用&#xff0c;含有简单的说明文档。 适合单仓库&#xff0c;基本的仓库入库管理&#xff0c;出库管理&#xff0c;盘点&#xff0c;报损&#xff0c;移库&#xff0c;库位等管理&#xff0c;有着可视化图表。 系统采用Bo…

消息的订阅与发布机制

消息的订阅与发布机制 功能&#xff1a;可完成任意组件之间数据的传递&#xff08;同全局事件总线功能一样&#xff09;区别&#xff1a;与全局事件总线相比&#xff0c;消息的订阅和发布机制需要使用第三方库。我用的是pubsub-js库&#xff0c;其他的第三方库也可以使用&#…

如何在崩坏3rd游戏中使用万安单机单窗口软件进行游戏道具收购?

如何在崩坏3rd游戏中使用窗口软件进行游戏道具收购&#xff1f; 首先&#xff0c;定义在崩坏3rd游戏中&#xff0c;使用窗口软件进行游戏道具收购涉及到账户绑定、软件下载、游戏内购买等步骤。 我在玩崩坏3rd游戏时&#xff0c;使用了窗口软件成功完成了游戏道具的收购。 步骤…

【产品体验】OA办公系统

一、演示地址 http://admin.dianshixinxi.com:90/index 二、办公管理功能 1.我的待办&#xff1a;当前登录用户&#xff0c;办理任务 2.通知公告&#xff1a;通知与公告&#xff0c;已发布通知公告会显示在首页 3.自定义表单&#xff1a;自定义表单&#xff0c;托拉拽的形式…

【Python 零基础入门】Numpy 常用函数

【Python 零基础入门】内容补充 3 Numpy 常用函数 概述Numpy 数组创建np.arangenp.linspace 数组操作reshapeflattenconcatenatesplitvstackhstack 数学运算add 相加subtract 相减multiply 相乘divide 相除 通用函数np.sqrt 平方根np.log 对数np.exp 指数np.sin 正弦 概述 Num…

WPS文件恢复怎么做?记得掌握这5个方法!

“我保存在WPS里的部分文件丢失了&#xff0c;大家快帮我想想办法吧&#xff0c;有什么方法可以恢复这些WPS里的文件吗&#xff1f;真的很重要&#xff01;” WPS Office是一款流行的办公套件&#xff0c;给用户在办公和学习方面提供了很多的便利。但在整理文件时&#xff0c;我…

CV计算机视觉每日开源代码Paper with code速览-2023.10.30

精华置顶 墙裂推荐&#xff01;小白如何1个月系统学习CV核心知识&#xff1a;链接 点击CV计算机视觉&#xff0c;关注更多CV干货 论文已打包&#xff0c;点击进入—>下载界面 点击加入—>CV计算机视觉交流群 1.【语义分割】&#xff08;NeurIPS2023&#xff09;SmooSe…

pc通过window.open打开新页面,新页面要使用原来页面的token

原文链接&#xff1a; https://blog.csdn.net/weixin_42342065/article/details/127420783 (以下为本人笔记使用) 对于前端来说&#xff0c;一般在登录获取token之后会把token存入缓存以及放置在Request Headers请求头中&#xff0c;但是使用iframe/window.open/a这三种标签打…

高并发项目部署以及优化手段

文章目录 &#x1f50a;博主介绍&#x1f916;博主的简介&#x1f4e5;博主的目标 &#x1f964;本文内容&#x1f31f; 服务器配置&#x1f34a; 文件系统参数、TCP网络层参数等系统参数&#x1f34a; 修改文件描述符大小 &#x1f31f; SpringBoot的配置&#x1f34a; 1. 配置…

WPS Office 制作下拉两级联动

文章目录 前言WPS Office 制作下拉两级联动1. 准备两级联动数据![在这里插入图片描述](https://img-blog.csdnimg.cn/dc8c21c5f12349aeb467eed266888618.png)2. 设置一级下拉3. 设置二级联动下拉 前言 如果您觉得有用的话&#xff0c;记得给博主点个赞&#xff0c;评论&#xf…

k8s资源对象--pod

创建pod: kubectl get pod cp test_pod_1.yaml nginx_pod.yaml cah 查看详细信息&#xff1a; pod的状态处于pending可能的原因&#xff1a;一个或多个没有运行 由于当前所有节点没有可用节点&#xff08;所有节点资源不足&#xff0c;所有节点&#xff09; 查看所有&…

全网最详细4W字Flink全面解析与实践(下)

本文已收录至GitHub&#xff0c;推荐阅读 &#x1f449; Java随想录 微信公众号&#xff1a;Java随想录 原创不易&#xff0c;注重版权。转载请注明原作者和原文链接 文章目录 Flink State状态CheckPoint & SavePointCheckPoint原理SavePoint原理 StateBackend状态后端Memo…

LiveGBS流媒体平台GB/T28181常见问题-国标级联海康国标级联大华国标级联华为等,配置了国标级联, 上级看不到通道该怎么办?

LiveGBS常见问题-国标级联海康国标级联大华国标级联华为等&#xff0c;配置了国标级联, 上级看不到通道该怎么办? 1、如何配置国标级联2、上级看不到通道排查2.1、是否共享通道2.3、通道编号是否满足上级要求 3、如何抓包分析4、搭建GB28181视频直播平台 1、如何配置国标级联 …

ASO优化之如何制作Google Play的长短描述

应用的描述以及标题和图标是元数据中最关键的元素&#xff0c;可以影响用户是否决定下载我们的应用程序。简短描述的长度限制为80个字符&#xff0c;它提供了更多的有关应用背景信息的机会。 1、简短描述帮助用户快速了解我们应用。 确保内容丰富的同时&#xff0c;保持简洁和…

Expected indentation of 16 spaces but found 8 spaces.eslintvue/script-indent

问题&#xff1a;Expected indentation of 16 spaces but found 8 spaces.eslintvue/script-indent 原因&#xff1a; 严格地检查缩进问题&#xff0c;并不是报错 解决&#xff1a; 方法一&#xff1a;我们可以关闭这个检查规则&#xff08;好像没用&#xff09; .eslintrc.js…

02-详细介绍Vue中的数据代理和数据响应式

数据代理 MVVM 原生的Javascript代码Model和View没有分离,如果数据发生任意的改动, 接下来我们需要编写大篇幅的JS代码操作DOM元素更新视图 MVVM是目前前端开发领域当中倡导Model和View进行分离的开发思想或者架构模式,大部分主流框架如Vue和React都借鉴了这个MVVM思想 Mod…