CANN/AMCT大模型FlatQuant量化
AMCT大模型对于LLAMA2/Qwen3的FlatQuant量化【免费下载链接】amctAMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。项目地址: https://gitcode.com/cann/amct1 量化前提1.1 安装依赖本sample依赖包可参考requirements.txt需要注意的是torch_npu包版本需要与Python、torch包版本相匹配需要安装CANN包1.2 模型和数据集准备本sample以Llama2-7b/Qwen3-8bwikitext2数据集为示例请用户自行下载并在脚本中传入实际目录。1.3 简易量化配置本sample中使用的量化配置已经内置在工具中可以通过下述方式获取并使用from amct_pytorch.experimental.flatquant.config import INT4_FLAT_QUANT_CFG我们在量化配置中增加了use_down_quant配置用来控制down_proj是否进行量化对于down_proj量化敏感的模型可以跳过down_proj的量化。 如果需要修改详细配置请参考资料构造需要的量化配置dict。flatquant算法支持如下部分的量化真量化self_attn中q_projk_projv_proj以及mlp中up_projgate_projdown_proj部分的权重及输入共同量化使用Kronecker product其中输入为per token权重为per channel两者均为对称量化伪量化kv_cache及o_proj现阶段建议关闭参见INT4_FLAT_QUANT_CFG支持的量化类型以及量化配置字段类型说明取值范围注意事项skip_layersstr跳过量化的层/跳过量化层支持模糊匹配当配置字符串为层名字串或与层名一致时跳过该层量化不生成量化配置。字符串必须包含数字或字母algorithmdict量化使用的算法配置{flatquant}参考INT4_FLAT_QUANT_CFG示例2 量化示例2.1 llama2量化step 1.请在当前目录执行如下命令运行示例程序并根据实际情况修改示例程序中的模型路径python3 src/run_llama2_samples.py --model_path llama2 model path若出现如下信息则说明量化成功All done!其中日志里如下信息为评测任务结果百分比准确率ACC: {arc_challenge: 42.83, arc_easy: 70.88, hellaswag: 73.63, lambada_openai: 72.0, piqa: 77.48, winogrande: 67.88, acc_avg: 67.45}如下信息为perplexitywikitext, max length 512PPL score: 5.870388984680176如下信息为原始模型及真量化模型的推理速度ms:Time diff orig: 929.0580000000001 Time diff after real quant: 139.707脚本运行结束后在当前目录会生成并保存校准后参数./outputs/llama2_7b/flat_matrices.pth及量化日志文件./amct_log/amct_pytorch.log。如果想直接加载校准参数则使用如下设定python3 src/run_llama2_samples.py --model_path llama2 model path --load_matrix --flat_matrix_path matrix path, e.g. ./outputs/llama2_7b/flat_matrices.pth2.2 qwen3量化step 1.请在当前目录执行如下命令运行示例程序并根据实际情况修改示例程序中的模型路径python3 src/run_qwen_samples.py --model_path qwen3-8b model path若出现如下信息则说明量化成功All done!示例展示的是模型量化前后根据prompt生成的不同结果 prompt为:prompt Give me a short introduction to the Ascend Model Compression Toolkit(AMCT). /no_think量化前的生成结果为content: think The Ascend Model Compression Toolkit (AMCT) is a powerful tool designed to ...量化后的生成结果为content: think The Ascend Model Compression Toolkit (AMCT) is a powerful tool designed to ...【免费下载链接】amctAMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。项目地址: https://gitcode.com/cann/amct创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2599095.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!