【Linux内核三】网络丢包debug案例

news2025/7/8 2:09:44

👉个人主页:highman110

👉作者简介:一名硬件工程师,持续学习,不断记录,保持思考,输出干货内容 

目录

前言

测试环境

测试现象

​编辑 定位过程

​编辑 优化手段

1、加大ring buffer

2、加大socket buffer

3、尝试中断绑核


前言

前面两篇文章分享了Linux网络收发包流程和常用的网络问题定位工具,本期分享一个实际的测试案例,结合前面两篇的理论基础,逐步分析丢包的原因和解决办法。

测试环境

使用某国产CPU平台的两台设备,用iperf3工具进行udp报文测试。

设备A配置网口IP为192.168.1.12。

设备B配置网口IP为192.168.1.100。

设备A作为server端,从默认端口5201监听报文。

设备B作为client端,从默认端口发送udp报文,设置带宽1000M,测试时间5S。

测试现象

从设备A端监听到有丢包,且传输速率也只有六百多兆,没有达到设定的1000M水平:

 定位过程

用ifconfig查询网口统计,看是接收出错还是发送出错。

设备B发送端,可以看到发送没有错误统计:

设备A接收端,可以看到有rx error和overrun:

 

以下是从网上其他文章中看到的接收端错误解释,我上一篇文章中也有说明,由于我不是做做软件的,不懂看内核代码,具体这些统计的含义,建议有条件看代码的大佬以代码为准,我这里只是拾人牙慧,我个人觉得上一篇文章开头中提到的那篇雄文对于细节的理解应该是比较到位的:

(1) RX errors

表示总的收包的错误数量,这包括 too-long-frames 错误,crc 校验错误,帧同步错误以及 missed pkg 等等。

(2) RX dropped

表示数据包已经进入了Ring Buffer,但是由于内核处理不过来等系统原因,导致在数据从网卡拷贝到内存的过程中被丢弃。(这句话描述有误,ring buffer不是存数据包的,存的是描述符,描述符指向了socket buffer的位置,可以理解为数据DMA到socket buffer时丢了,可能是当前的数据内容大于socket buffer的容量)。

(3) RX overruns

overruns意味着数据包没到 ring buffer就被网卡物理层给丢弃了。当驱动处理速度跟不上网卡收包速度时,驱动来不及分配缓冲区(这句话同样有误,数据包不会到ring buffer),NIC 接收到的数据包无法及时写到socket buffer,就会产生堆积。当NIC内部缓冲区写满后,就会丢弃部分数据,引起丢包。这部分丢包为 rx_fifo_errors,在 /proc/net/dev 中体现为 fifo 字段增长,在 ifconfig 中体现为 overruns 指标增长。

(4) RX frame

表示 misaligned 的 frames。

可以看到接收错误为57个缓存(指的是网卡fifo溢出还是socket buffer还不明确)溢出错误和824非对齐帧错误,可能这两个是关联错误,由于缓存溢出导致一些帧无法对齐。

由于是udp报文测试,通过如下命令查询udp统计,可以看到InErrors和RcvbufErrors相等,更指向接收端缓存溢出错误。

确定为接收端问题后,可以继续查询rx error的具体类型,ifconfig命令统计的是帧对齐错误,这里ethtool没有统计帧对齐错误,而统计了rx resource error,这个不明白是什么意思。

 优化手段

1、加大ring buffer

设备A、B的网口ring buffer默认RX=512,TX=512。

将接收端设备B的ring参数改为tx=2048,rx=2048:

继续测试发现,丢包率降低一点点,带宽提升了一点点,效果不明显。

继续加大ring参数也没有明显效果,甚至丢包率还会劣化。

2、加大socket buffer

设备A、B socket buffer默认为rmem_default=212992,rmem_max=212992。

将接收端加大:

结果有改善,但是仍存在丢包现象。

3、尝试中断绑核

查询当前网卡中断集中在CPU core0上:

将此网卡中断数最多的中断号184重新绑定到core1和core2。其中6 表示的是 core2 和 core1,core0 的掩码是 0x1 (0001),core1掩码是 0x2 (0010),core2掩码是 0x4 (0100),core3掩码是 0x8 (1000) 依此类推。

另外需要注意的是设置 smp_affinity 的话不能开启 irqbalance 或者需要为 irqbalance 设置 –banirq 列表,将设置了 smp_affinity 的 IRQ 排除。不然 irqbalance 机制运作时会忽略你设置的 IRQ affinity 配置。

重新绑核测试无丢包:

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/404584.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

X86ARM @Linux平台cache eviction功能测试

经典的ARM处理器高速缓存工作原理: 高速缓存内部结构:

Qt样式表

1>样式表介绍 样式表可通过 QApplication::setStyleSheet()函数将其设置到整个应用程序上,也可以使用 QWidget::setStyleSheet()将其设置到指定的部件或子部件上,不同级别均可设置样式表,称为样式表的层叠。样式表也可通过设计模式编辑样…

vue中render函数的作用及解析

在vue脚手架的main.js文件中,存在这样一段代码: 意思是对vue实例的配置,其中render函数的作用是,将h创建的Node节点信息return返回给Vue.js底层处理文件中的beforeMount()生命周期钩子函数,让其将Node节点信息在界面中…

智能优化算法之蚁群算法

1、蚁群算法概述 蚁群算法(Ant Colony Algorithm, ACA) 由Marco Dorigo于1992年在他的博士论文中首次提出, 该算法模拟了自然界中蚂蚁的觅食行为。 蚂蚁在寻找食物源时, 会在其经过的路径上释放一种信息素, 并能够感知…

配对变量t检验

区别双变量t检验,见:https://mp.csdn.net/postedit/100640098 配对变量为两两相关的变量:如敷药前后体重变化。 要求:两变量服从正态分布。 SPSS演练 打开数据文件:ptest.sav 载地址:https://download.c…

vscode环境配置文件生成

使用vscode进行C开发时,除了需要安装相应的插件(例如:C/C、CMake、MySql等)外,还需要对相应的开发环境进行配置,和vs中的环境配置道理相通。一、编译文件介绍配置 C 环境时,会生成.vscode 文件夹…

记录一次消毒碗柜维修

现象:按开始消毒后马上停止,但可以一直按着按钮,就可以消毒,并且30分钟后可以自动停止。分析:消毒柜里面控制器就这3个1 开关只是触发通电,弹起就断开,按下可以接通,判断该零件正常2…

STM32感应开关盖垃圾桶

目录 项目需求 项目框图 ​编辑 硬件清单 sg90舵机介绍及实战 sg90舵机介绍 角度控制 SG90舵机编程实现 超声波传感器介绍及实战 超声波传感器介绍 超声波编程实战 项目设计及实现 项目需求 检测靠近时,垃圾桶自动开盖并伴随滴一声,2秒后关盖…

Hadoop入个门

文章目录1️⃣、Hadoop概述1.1、Hadoop是什么1.2、三大发行版本1.3、优势1.4、组成HDFSYARNMapReduceHDFS、YARN、MapReduce三者关系1.6、大数据技术生态体系image-202303111027195802️⃣、Hadoop运行环境搭建2.1、虚拟机环境准备2.2、克隆虚拟机2.3、在hadoop2上安装JDK2.4、…

cocoscreator+TS 遇到的问题

报错Can not preload the scene "game2" because it is not in the build settings.报错 1209, please go to https://github.com/cocos-creator/engine/blob/develop/EngineErrorMap.md#1209 to see details. Arguments: game2(env: Windows,mg,1.06.2303022; lib: …

掌握Shell脚本的if语句,让你的代码更加精准和高效

前言 大家好,我是沐风晓月,本文首发于csdn, 作者: 我是沐风晓月。 文章收录于 我是沐风晓月csdn专栏 【系统架构实战】专栏中的【shell脚本入门到精通】专栏。 本专栏从零基础带你层层深入,学会shell脚本,不是梦。 &…

核心系统国产平台迁移验证

核心系统国产平台迁移验证 摘要:信息技术应用创新,旨在实现信息技术领域的自主可控,保障国家信息安全。金融领域又是关系国家经济命脉的行业,而对核心交易系统的信息技术应用创新是交易所未来将要面临的重大挑战。为了推进国产化进…

云数据库RDS介绍

RDS介绍 关系型数据库(relational database service,简称RDS),是一种可靠、可弹性伸缩的在线数据库服务。 1)基于分布式文件系统和SSD盘高性能存储 2)支持MySQL、SQL Server、PostgreSQL、MariaDB TX引擎 …

原来不用控制台,也可以轻松调试CSS呀

Ⅰ. 作用 用于调试CSS , 比控制台添更加方便,不需要寻找 ;边添加样式,边可以查看效果,适合初学者对CSS 的理解和学习; Ⅱ. 快速实现(两边) ① 显示这个样式眶 给 head 和 style 标签添加一个…

YOLOS学习记录

在前面,博主已经完成了YOLOS项目的部署与调试任务,并在博主自己构造的数据集上进行了实验,实验结果表明效果并不显著,其实这一点并不意外,反而是在情理之中。众所周知,Transformer一直以来作为NLP领域的带头…

独立开发者案例:每周4h月入数万刀;国家数据局与时代红利;创业前先买个域名;工程师成长最重要的是什么 | ShowMeAI周刊

这是ShowMeAI周刊的第6期。聚焦AI领域本周热点,及其在各圈层泛起的涟漪;关注AI技术进步,并提供我们的商业洞察。欢迎关注与订阅!👀日报合辑 ⌛ 独立开发者案例:每周只工作4小时,独立开发者打造月…

Docker nginx安装使用

拉取镜像$ docker pull nginx默认会拉取仓库名为nginx,tag为latest的镜像。挂载nginx.conf文件首次启动nginx容器考虑到后面维护nginx配置文件nginx.conf的成本,这里采用docker 数据卷的技术,即将docker中的nginx.conf配置文件挂载到宿主机当…

嵌入式学习笔记——STM32的USART通信概述

文章目录前言常用通信协议分类及其特征介绍通信协议通信协议分类1.同步异步通信2.全双工/半双工/单工3.现场总线/板级总线4. 串行/并行通信5. 有线通信、无线通信STM32通信协议的配置方式使用通信协议控制器实现使用IO口模拟的方式实现STM32串口通信概述什么是串口通信STM32F40…

# YOLOv8测试(1)

YOLOv8测试(1)1. 训练最简流程1.1 安装包1.2 训练demo1.3 验证参考文献资料鉴于网络上的太多教程,都太过繁琐了。其实之前也用过YOLOv2 v3版本,但很久没用,找了一圈教程多少有坑,想想还是自己整理一版吧。花…

测开:vue高级特性

vue官网地址: Vue.js - 渐进式 JavaScript 框架 | Vue.js 上一章节: 测开:vue基本语法_做测试的喵酱的博客-CSDN博客 一、vue事件修饰符 1.1 stop: 阻止事件冒泡 事件冒泡:子元素触发某个事件之后,会依次将这个事…