CANN/asc-devkit AddReluCast算子API
AddReluCast【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品 / Atlas A3 推理系列产品√Atlas A2 训练系列产品 / Atlas A2 推理系列产品√功能说明按元素求和结果和0对比取较大值并根据源操作数和目的操作数Tensor的数据类型进行精度转换。计算公式如下其中dstType表示目的操作数的数据类型函数原型tensor前n个数据计算template typename T, typename U __aicore__ inline void AddReluCast(const LocalTensorT dst, const LocalTensorU src0, const LocalTensorU src1, const uint32_t count)tensor高维切分计算mask逐bit模式template typename T, typename U, bool isSetMask true __aicore__ inline void AddReluCast(const LocalTensorT dst, const LocalTensorU src0, const LocalTensorU src1, uint64_t mask[], const uint8_t repeatTime, const BinaryRepeatParams repeatParams)mask连续模式template typename T, typename U, bool isSetMask true __aicore__ inline void AddReluCast(const LocalTensorT dst, const LocalTensorU src0, const LocalTensorU src1, uint64_t mask, const uint8_t repeatTime, const BinaryRepeatParams repeatParams)参数说明表 1模板参数说明参数名描述T目的操作数数据类型。不同数据类型对应的精度转换规则见表3。Ascend 950PR/Ascend 950DT支持的数据类型为int8_t、half、int32_t、float。Atlas A3 训练系列产品 / Atlas A3 推理系列产品支持的数据类型为int8_t、half。Atlas A2 训练系列产品 / Atlas A2 推理系列产品支持的数据类型为int8_t、half。U源操作数数据类型。Ascend 950PR/Ascend 950DT支持的数据类型为int16_t、half、float、int64_t。Atlas A3 训练系列产品 / Atlas A3 推理系列产品支持的数据类型为int16_t、half、float。Atlas A2 训练系列产品 / Atlas A2 推理系列产品支持的数据类型为int16_t、half、float。isSetMask是否在接口内部设置mask。true表示在接口内部设置mask。false表示在接口外部设置mask开发者需要使用SetVectorMask接口设置mask值。这种模式下本接口入参中的mask值必须设置为占位符MASK_PLACEHOLDER。表 2参数说明参数名输入/输出描述dst输出目的操作数。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要32字节对齐。src0、src1输入源操作数。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要32字节对齐。count输入参与计算的元素个数。mask[]/mask输入mask用于控制每次迭代内参与计算的元素。逐bit模式可以按位控制哪些元素参与计算bit位的值为1表示参与计算0表示不参与。mask为数组形式数组长度和数组元素的取值范围和操作数的数据类型有关。当操作数为16位时数组长度为2mask[0]、mask[1]∈[0, 264-1]并且不同时为0当操作数为32位时数组长度为1mask[0]∈(0, 264-1]当操作数为64位时数组长度为1mask[0]∈(0, 232-1]。例如mask[8, 0]80b1000表示仅第4个元素参与计算。连续模式表示前面连续的多少个元素参与计算。取值范围和操作数的数据类型有关数据类型不同每次迭代内能够处理的元素个数最大值不同。当操作数为16位时mask∈[1, 128]当操作数为32位时mask∈[1, 64]当操作数为64位时mask∈[1, 32]。当源操作数和目的操作数位数不同时以数据类型的字节较大的为准。例如源操作数为half类型目的操作数为int8_t类型计算mask时以half为准。repeatTime输入重复迭代次数。矢量计算单元每次读取连续的256Bytes数据进行计算为完成对输入数据的处理必须通过多次迭代repeat才能完成所有数据的读取与计算。repeatParams输入控制操作数地址步长的参数。BinaryRepeatParams类型包含操作数相邻迭代间相同datablock的地址步长操作数同一迭代内不同datablock的地址步长等参数。表 3精度转换规则源操作数的数据类型目的操作数的数据类型类型转换模式介绍floathalf将源操作数按照CAST_NONE模式取到half所能表示的数以half格式溢出默认按照饱和处理存入目的操作数中。halfint8_t将源操作数按照CAST_NONE模式取整以int8_t格式溢出默认按照饱和处理存入目的操作数中。int16_tint8_t将源操作数按照CAST_NONE模式取到int8_t所能表示的数以int8_t格式溢出默认按照饱和处理存入目的操作数中。int64_tfloat将源操作数按照CAST_NONE模式取整以float格式溢出默认按照饱和处理存入目的操作数中。int64_tint32_t将源操作数按照CAST_NONE模式取到int32_t所能表示的数以int32_t格式溢出默认按照饱和处理存入目的操作数中。返回值说明无约束说明针对Ascend 950PR/Ascend 950DTint64_t数据类型仅支持tensor前n个数据计算接口。调用示例本样例的srcLocal为half类型dstLocal为int8_t类型计算mask时以half为准。tensor高维切分计算样例-mask连续模式uint64_t mask 256 / sizeof(half); // 128 // repeatTime 4一次迭代计算128个数共计算512个数 // dstBlkStride, src0BlkStride, src1BlkStride 1单次迭代内数据连续读取和写入 // dstRepStride 4src0RepStride, src1RepStride 8相邻迭代间数据连续读取和写入 AscendC::AddReluCast(dstLocal, src0Local, src1Local, mask, 4, { 1, 1, 1, 4, 8, 8 });tensor高维切分计算样例-mask逐bit模式uint64_t mask[2] { UINT64_MAX, UINT64_MAX }; // repeatTime 4一次迭代计算128个数共计算512个数 // dstBlkStride, src0BlkStride, src1BlkStride 1单次迭代内数据连续读取和写入 // dstRepStride 4src0RepStride, src1RepStride 8相邻迭代间数据连续读取和写入 AscendC::AddReluCast(dstLocal, src0Local, src1Local, mask, 4, { 1, 1, 1, 4, 8, 8 });tensor前n个数据计算样例AscendC::AddReluCast(dstLocal, src0Local, src1Local, 512);结果示例如下输入数据src0Local: [1 1 3 ... 512] 输入数据src1Local[0 0.5 -4 ... -513] 输出数据dstLocal[1 2 0 ... 0]【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言原生支持C和C标准规范主要由类库和语言扩展层构成提供多层级API满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2598115.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!