AMCT KV Cache量化配置
KV Cache量化简易配置文件【免费下载链接】amctAMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。项目地址: https://gitcode.com/cann/amctquant_calibration_config_pytorch.proto文件参数说明如下表所示该文件所在目录为AMCT安装目录/amct_pytorch/proto/。表 1quant_calibration_config_pytorch.proto参数说明消息是否必填类型字段说明AMCTQuantCaliConfig---AMCTkv-cache量化的简易配置。optionaluint32batch_num量化使用的batch数量用于ifmr/hfmg量化算法积累数据计算量化因子。optionalboolactivation_offset数据量化是否带offset。全局配置参数。true带offset数据量化时为非对称量化。false不带offset数据量化时为对称量化。optionalCommonCalibrationConfigkv_cache_quant_config通用的kv-cache量化配置全局量化配置参数。若某层未被override_layer_configs重写则使用该配置。参数优先级override_layer_configskv_cache_quant_configrepeatedOverrideLayeroverride_layers_configs重写某一层的量化配置即对哪些层进行差异化量化。例如全局量化配置参数配置的量化因子搜索步长为0.01可以通过该参数对部分层进行差异化量化可以配置搜索步长为0.02。参数优先级override_layers_configskv_cache_quant_configCommonCalibrationConfig---通用的kv-cache量化配置。repeatedstringquant_layers支持量化的层名。optionalCalibrationConfigcalibration_config量化配置。OverrideLayer---重置某层量化配置。repeatedstringlayer_name被重置层的层名。optionalCalibrationConfigkv_data_quant_config重写的kv_cache量化配置参数。CalibrationConfig---Calibration量化的配置。-FMRQuantizeifmr_quantize数据量化算法配置。ifmr_quantizeIFMR量化算法配置。-HFMGQuantizehfmg_quantize数据量化算法配置。hfmg_quantizeHFMG量化算法配置。FMRQuantize---FMR数据量化算法配置。算法介绍请参见IFMR数据量化算法。该参数与HFMGQuantize参数不能同时配置。optionalfloatsearch_range_start量化因子搜索范围左边界。optionalfloatsearch_range_end量化因子搜索范围右边界。optionalfloatsearch_step量化因子搜索步长。optionalfloatmax_percentile最大值搜索位置。optionalfloatmin_percentile最小值搜索位置。optionalboolasymmetric是否进行对称量化。用于控制逐层量化算法的选择。true非对称量化false对称量化如果override_layer_configs、common_config配置项都配置该参数或者配置了activation_offset参数则生效优先级为override_layer_configscommon_configactivation_offsetoptionalQuantGranularityquant_granularity量化粒度支持如下两种方式0per_tensor默认为0。1per_channel。HFMGQuantize---HFMG数据量化算法配置。算法介绍请参见HFMG数据量化算法。该参数与FMRQuantize参数不能同时配置。optionaluint32num_of_bins直方图的bin直方图中的一个最小单位直方图形数目支持的范围为{1024, 2048, 4096, 8192}。默认值为4096。optionalboolasymmetric是否进行对称量化。用于控制逐层量化算法的选择。true非对称量化false对称量化如果override_layer_configs、common_config配置项都配置该参数或者配置了activation_offset参数则生效优先级为override_layer_configscommon_configactivation_offsetoptionalQuantGranularityquant_granularity量化粒度支持如下两种方式0per_tensor默认为0。1per_channel。基于该文件构造的kv-cache量化简易配置文件quant.cfg样例如下所示kv_cache_quant_config { quant_layers: matmul1 quant_layers: matmul2 calibration_config: { hfmg_quantize : { } } } override_layers_configs { layer_name: matmul3 kv_data_quant_config: { ifmr_quantize : { } } }【免费下载链接】amctAMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。项目地址: https://gitcode.com/cann/amct创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2599098.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!