2025_NIPS_IR-OptSet: An Optimization-Sensitive Dataset for Advancing LLM-Based IR Optimizer
文章核心总结与创新点主要内容本文针对传统编译器依赖手工优化规则、扩展性差的问题,提出首个公开的优化敏感数据集IR-OptSet,用于提升基于大语言模型(LLMs)的中间表示(IR)优化器性能。该数据集包含170K条LLVM IR样本,源自8个优化领域的1704个开源仓库,定义了代码分析和优化代码生成两大核心任务,并提供正确性验证、性能评估和数据集扩展工具链。实验表明,基于该数据集微调的LLMs在两项任务中准确性显著提升,且在64个测试案例中优化效果超越传统编译器-O3选项,同时相比现有数据集具备更丰富的转换多样性和更强的泛化能力。创新点首个优化敏感数据集:聚焦真实场景中能触发多样优化转换的样本,每个程序平均包含22.89个有效优化步骤,填补现有数据集缺乏代表性转换样本的空白。任务与工具链协同设计:任务对齐编译器优化流程,配套的正确性验证(双阶段校验)、性能评估(静态分析工具)和扩展工具,支持端到端的模型训练与评估。实证验证优势:在小样本微调下仍能提升不同类型LLMs的优化能力,生成的IR在部分场景中超越传统编译器,且转换多样性和跨数据集泛化性优于现有同类数据集。英文原文翻译(Markdown格式)Abstract编译器优化对于提升程序性能至关重要,但现代编译器仍依赖于针对中间表示(IR)的手工编写转换规则。随着编译器复杂度的提升,维护这些基于规则的优化变得日益
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2418402.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!