Golang使用PGO优化程序性能

news2025/6/21 18:57:38


文章目录

    • 参考文章
    • PGO是什么
    • 使用PGO的好处
    • PGO做了什么
      • 热函数内联
        • 什么是内联
        • 内联的好处
        • Go默认的内联策略
        • 查看内联预算
        • PGO的热函数内联
      • 去虚拟化调用
      • 指令高速缓存
    • PGO有什么缺点
      • 可执行程序变大
      • 构建时间变长
    • PGO怎么使用
      • 典型的工作流程
      • 收集CPU配置文件
      • 生产环境启动PGO
      • 代码改动重新生成CPU配置文件
    • PGO的未来
    • 个人看法
    • QA
      • Q1 PGO是否可以优化标准包和依赖的包
      • Q2 CPU配置文件不当是否会使我的程序比没有 PGO 的速度慢?
      • Q3 怎么保证收集到公正的CPU配置文件
      • Q4 不同运行环境下如何使用PGO

参考文章

PGO介绍:
https://andrewwphillips.github.io/blog/pgo.html
生成profile配置文件:
https://andrewwphillips.github.io/blog/flame-graphs.html#generating-cpu-profiles

提案:Go 的配置文件引导优化(PGO)的设计和实现:
https://go.googlesource.com/proposal/+/master/design/55022-pgo-implementation.md

go官方文档使用PGO:
https://go.dev/doc/pgo#:~:text=Collecting%20representative%20profiles%20from%20production

PGO:为你的go程序提效5%:
https://colobu.com/2023/09/13/pgo/

PGO是什么

引入官方的说法:https://go.dev/doc/pgo#merging-profiles
从 Go 1.20 开始,Go 编译器支持配置文件引导优化 (PGO) 以进一步优化构建。
Profile-guided optimization (PGO)。配置文件引导优化 (PGO),也称为反馈导向优化 (FDO),是一种编译器优化技术,它将应用程序的代表性运行中的信息(配置文件)反馈回编译器,以供下一次构建应用程序使用。它使用该信息做出更明智的优化决策。例如,编译器可能决定更积极地内联配置文件指示频繁调用的函数。
在Go中,编译器使用CPU pprof配置文件作为输入配置文件,例如来自runtime/pprof或net/http/pprof。
从 Go 1.22 开始,一组代表性 Go 程序的基准测试表明,使用 PGO 进行构建可将性能提高约 2-14%。

自Go 1.20版本引入PGO(profile-guided optimization)后,PGO这种优化技术带来的优化效果就得到了持续的提升:Go 1.20实测性能提升仅为1.05%;Go 1.21版本发布时,官方的数据是2%~7%,而Go 1.21编译器自身在PGO优化过后编译速度提升约6%。
在Go 1.22中,官方给出的数字则是2%~14%,这14%的提升想必是来自Google内部的某个实际案例。

使用PGO的好处

提升性能,降低成本。
在 Google 服务器上运行的大部分代码都是使用 PGO 构建的。当你考虑到(我的估计)所有这些服务器的电费每年必须接近(如果不超过)10 亿美元时,PGO 每年可能至少为 Google 节省数千万美元。所以从经济上来说这是有道理的。

PGO做了什么

热函数内联

什么是内联

所谓内联,指的是编译期间,直接将调用函数的地方替换为函数的实现,它可以减少函数调用的开销以提高程序的性能。

内联的好处
  1. 解除函数调用的开销,以空间换时间;
  2. 支持编译器更有效地应用其他优化策略。

Go默认的内联策略
  1. 函数足够简单,当解析AST时,Go申请了80个节点作为内联的预算。每个节点都会消耗一个预算。函数的开销不能超过这个预算;
  2. 不能包含闭包,defer,recover,select;
  3. 不能以 go:noinline 或 go:unitptrescapes 开头;
  4. 必须有函数体;
  5. 其他等复杂要求,详细可见src/cmd/compile/internal/gc/inl.go相关内容。我们可以使用 gcflags 参数来判断能不能内联。

查看内联预算

关于内联的预算,可以使用编译命令-gcflags=-m=2查看详细的优化决策,例如:
可以看到哪个函数内联了,哪个没有内联,以及内联的成本。

go build -gcflags=-m=2 inl.go 
#/inl.go:3:6: can inline small with cost 7 as: func() string { s := "hello, world!"; return s }
./inl.go:8:6: cannot inline large: function too complex: cost 82 exceeds budget 80
./inl.go:38:6: can inline main with cost 68 as: func() { small(); large() }
./inl.go:39:7: inlining call to small func() string { s := "hello, world!"; return s }

当使用-gcflags=-m=2这个命令时,会指示Go编译器输出更详尽的优化决策信息。这个-m标志被用来控制编译器的内联和逃逸分析信息的输出。在这个上下文中,-m后跟等号和一个数字表示详细级别。
● -m:显示出哪些函数被内联。
● -m=2或者更高的数字,如-m=3,会显示更多的信息,包括为什么某些函数没有被内联(比如说,函数过于复杂)以及变量逃逸分析的结果(比如说,哪些变量被移动到了堆上)。

PGO的热函数内联

如果调用次数较多的函数(所谓的函数)稍微超出内联预算,则可能不会内联它们。
PGO 做了几件事来使内联更加有效。首先,它增加了热点函数的内联预算
PGO 避免内联 CPU 配置文件显示为冷函数的函数。同样,这减少了不必要的代码膨胀。

去虚拟化调用

通过接口调用方法比直接方法/函数调用慢。CPU配置文件可以显示调用的具体类型是什么,从而在编译的时候,直接优化为具体类型的调用:

type I interface { f() }
...
    var i I
    ...
    i.f()


# PGO优化
    # 热路径
    if a, ok := i.(A); ok {
        a.f() // direct call
    } else {
        i.f()
    }

指令高速缓存

CPU 配置文件允许编译器通过代码查找常用执行路径或路径。编译器将对函数内的代码块重新排序,并且(稍后在构建过程中)链接器将调整函数的位置,从而确定将它们加载到指令内存中的位置。
image.png

PGO有什么缺点

可执行程序变大

由于额外的函数内联,PGO 可能会产生稍大的二进制文件。

构建时间变长

启用 PGO 构建可能会导致包构建时间显着增加。其中最值得注意的部分是 PGO 配置文件适用于二进制文件中的所有包,这意味着首次使用配置文件需要重建依赖关系图中的每个包。这些构建像其他构建一样被缓存,因此使用相同配置文件的后续增量构建不需要完全重建。
例如:https://github.com/golang/go/issues/58102 构建时间可能会增加好几倍,当然go官方团队也在致力于解决这个问题。

PGO怎么使用

典型的工作流程

  1. 构建并发布初始二进制文件(不含 PGO)。
  2. 从生产中收集配置文件。
  3. 当需要发布更新的二进制文件时,从最新源构建并提供生产配置文件。
  4. 转到2

收集CPU配置文件

明确不开启PGO的情况下,例如go build -pgo=off,使用pprof进行CPU配置收集,收集结果为default.pgo。建议是收集生产环境的CPU配置文件更为精准,当然如果可以保证测试/仿真环境和生产环境一致的话,在测试/仿真环境收集也是OK的。

生产环境启动PGO

go1.21之后默认开启了PGO,也可以在编译的时候手动设置。
例如:

  1. 开启PGO: go build -pgo=auto
  2. 设置PGO配置文件路径: go build -pgo=/tmp/foo.pprof

代码改动重新生成CPU配置文件

如果无法评估迭代对于CPU配置文件的影响,建议是发布的时候重新收集CPU配置,参考上面的流程。 go官方建议PGO文件可以提交到版本库里面,方便对比和管理。

PGO的未来

有很多“微观”优化的机会。例如,如果在堆上分配的变量不需要在热路径中转义,则该变量可以在堆栈上分配,并且仅在采用冷路径时才移动到堆。
一件重要的事情(随着泛型的使用越来越多)是称为模板的功能。当在热路径中调用泛型函数时,PGO 可以确定类型参数,并专门为该类型生成代码(甚至可能在热调用站点内联它!)
未来要迭代的方向:https://github.com/golang/go/issues/62463

个人看法

对于GO程序来说,大家认为整体还是比较高效的,只是相对于c和rust来说性能确实有差距,可能达到25%的性能差距,但是GO的易用性和生态弥补了这一缺陷。只是谁又不想让自己的程序快一点,占用资源少一点呢?

对小型项目来说,关注新技术即可,没必要强行上PGO。毕竟有一定的构建成本,且小型项目对性能和成本不敏感。而对于大型项目或者大型互联网公司来说,例如字节,B站这些,别说14%的优化了,2%的优化都值得正确,可能带来的是千万级的成本节省。

QA

Q1 PGO是否可以优化标准包和依赖的包

是的。 Go中的PGO适用于整个程序。所有包都会重新构建,以考虑潜在的配置文件引导优化,包括依赖项中的包。这意味着应用程序使用依赖项的独特方式会影响应用于该依赖项的优化。

Q2 CPU配置文件不当是否会使我的程序比没有 PGO 的速度慢?

不应该。虽然不代表生产行为的配置文件将导致应用程序冷部分的优化,但它不应该使应用程序热部分变慢。如果您遇到 PGO 导致性能比禁用 PGO 更差的程序,请在go.dev/issue/new提交问题。

Q3 怎么保证收集到公正的CPU配置文件

  1. 在高峰期,平稳期或者任何时间,都可以收集CPU配置文件
  2. 合并收集到的多个配置文件:
$ go tool pprof -proto a.pprof b.pprof > merged.pprof

这种合并实际上是输入中样本的简单求和,无论配置文件的墙持续时间如何。因此,当分析应用程序的小时间片(例如,无限期运行的服务器)时,您可能希望确保所有配置文件具有相同的墙持续时间(即,收集所有配置文件 30 秒)。否则,具有较长墙持续时间的配置文件将在合并的配置文件中过多表示。

Q4 不同运行环境下如何使用PGO

  1. 相同的CPU配置文件,可以在linux和windows上的应用程序使用。对于大多数应用程序来说,绝大多数代码是平台无关的,因此这种形式的退化是有限的。
  2. 为不同运行环境生成独有的CPU配置。代价就是增加管理负担。

end

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1584831.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux进阶篇:磁盘管理(二):LVM的创建、格式化和使用

Linux磁盘管理(二):LVM的创建、格式化和使用 一、LVM原理回顾 LVM的工作原理进行一个总结: (1)物理磁盘被格式化为PV,空间被划分为一个个的PE (2)不同的PV加入到同一个VG中,不同PV的PE全部进入到了VG的PE…

【Android】apk安装报错:包含病毒: a.gray.BulimiaTGen.f

​ 有时候apk安装或者更新时,显示:[高风险]包含病毒: a.gray.BulimiaTGen.f这种bug; 原因:这是手机管家误报病毒。 处理方法:我看网上其他资料可以进行申诉,也可以进行apk加固,我这边尝试用360…

川土微高性能模拟芯片系列产品介绍和应用

一、公司简介 上海川土微电子有限公司是一家成立于2016年的专注于高端模拟芯片研发设计与销售的高科技公司,产品涵盖隔离与接口、驱动与电源、高性能模拟三大产品线以及μMiC战略产品( micro-Module in Chip)。目前产品已广泛应用于工业控制…

电脑干货:Win10系统中31个运维小技巧,值得收藏

目录 技巧列表 今天给大家分享Win10系统中31个运维小技巧,希望对大家能有所帮助! 技巧列表 1、查看电脑IP地址:按WinR打开运行框→输入cmd点确定→输入ipconfig回车就可以看到IP地址了。 2、网页上的文字不能复制怎么解决:按F12…

【Linux】虚拟机连不上外网 (1),2024百度网络安全岗面试真题收录解析

vi /etc/sysconfig/network-scripts/ifcfg-ens33 BOOTPROTOstatic ONBOOTyes IPADDR? NETMASK? GATEWAY? dns18.8.8.8 dns1144.144.144.144 这两个必填 自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂…

SpringBoot学习之Kibana下载安装和启动(三十二)

一、简介 Kibana是一个开源的分析与可视化平台,设计出来用于和Elasticsearch一起使用的。你可以用kibana搜索、查看存放在Elasticsearch中的数据。Kibana与Elasticsearch的交互方式是各种不同的图表、表格、地图等,直观的展示数据,从而达到高级的数据分析与可视化的目的。 …

vue3 + potree 渲染点云数据记录

potree 官网示例 前置条件: potree 无法直接加载 LAS,LCD,PLY等格式的点云文件, 需要通过 PotreeConverte 转换为 octree 数据格式,前端渲染中加载转换后的 json 格式 格式转换方向 .las ---- potreeConverter ----> .json…

这4本计算机期刊,含CCF推荐,1个月发表周期,部分期刊剩15篇版面,接受预留

转眼间已进入四月份,正值春景好时节,在踏青赏景之余也别忘了做好科研(学业)规划。 我方致力于学术论文发表辅导十余年,与100余家国际出版社长期合作,推荐各领域论文至SCI/EI/CNKI收录期刊快速发表&#xf…

Docker 安装 RocketMQ

目录 一、新建两个配置文件 1.1 创建docker-compose.yml文件 1.2 .新建broker.conf文件 二、运行 三、可视化界面 一、新建两个配置文件 1.1 创建docker-compose.yml文件 version: 3.5 services:rmqnamesrv:image: foxiswho/rocketmq:servercontainer_name: rmqnamesrvports…

实战项目——智慧社区(一)

1、项目介绍 系统功能 登录、修改密码、登出 (1)首页 (1.1)数据统计:小区人员统计对比图,占比图 (2)物业管理 (2.1)小区管理:小区数据的增删改…

【Cesium学习笔记】二、隐藏控件及按钮

【Cesium学习笔记】二、隐藏控件及按钮 一、隐藏控件二、隐藏cesium图标 Ps:本教程所有代码于同一个工程中,运行npm run dev默认首页为App.vue,只需替换App.vue的内容即可切换不同页面。 将上一节的App.vue保存为类似“加载cesium.vue”这种对应名称。 …

回归预测 | Matlab实现WOA-GPR鲸鱼算法优化高斯过程回归多变量回归预测

回归预测 | Matlab实现WOA-GPR鲸鱼算法优化高斯过程回归多变量回归预测 目录 回归预测 | Matlab实现WOA-GPR鲸鱼算法优化高斯过程回归多变量回归预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 Matlab实现WOA-GPR鲸鱼算法优化高斯过程回归多变量回归预测 1.Matlab实现…

解决Android Studio Loading Devices问题

目录 一、解决办法(普通): 二、解决办法的优化 三、解决办法的进一步优化 问题:windows 11 电脑,每次开机,打开Android Studio,都会显示Loading Devices,连接不上设备。 原因:adb…

SpringBoot和Vue2项目配置https协议

1、SpringBoot项目 ① 去你自己的云申请并下载好相关文件,SpringBoot下载的是Tomcat(默认),Vue2下载的是Nginx ② 将下载的压缩包里面的.pfx后缀文件拷贝到项目的resources目录下 ③ 编辑配置文件 (主要是框里面的内…

SOCKS代理是如何提高网络性能和兼容性的?

SOCKS代理作为一种网络协议中间件,不仅在提升网络隐私和安全性方面发挥着重要作用,也在提高网络性能和兼容性方面有着不容忽视的影响🚀。本文将深入探讨SOCKS代理如何通过减少网络延迟🚀、优化数据传输🔄、提高跨平台兼…

MacOS下Qt 5开发环境安装与配置

最近笔者在MacOS中使用Qt Creator开发Qt程序时遇到了一些问题,在网上查了不少资料,都没有找到解决方案,只有自己进行研究摸索了,今天晚上终于将目前遇到的问题全部解决了,特记录下来分享给大家。 笔者使用的是MacOS 1…

政安晨:【深度学习神经网络基础】(六)—— 前馈神经网络

目录 简述 前馈神经网络结构 计算输出 初始化权重 径向基函数神经网络 径向基函数 政安晨的个人主页:政安晨 欢迎 👍点赞✍评论⭐收藏 收录专栏: 政安晨的机器学习笔记 希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎…

“反正你又看不到,少写一行又何妨......”

单链表专题 1.链表的概念及结构2. 实现单链表3. 链表的分类 1.链表的概念及结构 概念:链表是⼀种物理存储结构上⾮连续、⾮顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的 。 链表的结构跟火车车厢相似,淡季时⻋次的⻋厢…

跨平台桌面应用 Electron 入门学习

本文章主要为该视频的学习笔记,如果侵权会速删。 Electron 01 课程介绍_哔哩哔哩_bilibiliElectron 01 课程介绍, 视频播放量 3046、弹幕量 0、点赞数 75、投硬币枚数 43、收藏人数 179、转发人数 2, 视频作者 极客丶张德龙, 作者简介 当你的能力还不足以撑起自己的…

2024-04-10 Linux gzip 和 gunzip 命令,gzip 压缩的文件通常比原始文件小得多。

一、gzip 是 Linux 系统中用于压缩文件的命令,它通常用于将单个文件压缩成 .gz 格式的文件。gzip 压缩的文件通常比原始文件小得多,因此它在节省磁盘空间和减少文件传输时间方面非常有用。 gzip 命令的基本语法如下: gzip [选项] [文件]复制…