AI系统-7Pytorch数字识别实战及算子介绍

news2026/3/27 17:43:59

之前铺垫了神经网络的基础知识这里使用编程工具Pytorch进行一个实战讲解。首先变成一个看得见、摸得着的程序和代码然后再说后续怎么使用GPU/NPU硬件去优化。本文主要参考ZOMI酱《AI系统》https://chenzomi12.github.io/01Introduction/04Sample.html1. Pytorch介绍参考https://zhuanlan.zhihu.com/p/101799677当前深度学习的框架有很多其中较为出名的是Google的TensorFlow、Facebook的PyTorch还有就是百度的paddlepaddle。今天我们拿比较简单的PyTorch来进行入门的学习。PyTorch是一个基于Torch的Python开源机器学习库用于自然语言处理等应用程序。它主要由Facebook的人工智能研究小组开发。PyTorch是一个Python包提供两个高级功能具有强大的GPU加速的张量计算如NumPy包含自动求导系统的的深度神经网络 * 您可以重用您最喜欢的Python包如NumPy、SciPy和Cython以便在需要时扩展PyTorch。 PyTorch的安装十分简单根据PyTorch官网对系统选择和安装方式等灵活选择即可。这里以anaconda为例Windows10 下 Anaconda和 PyCharm 的详细的安装教程图文并茂简单的说一下步骤和要点。1.1 安装PytorchAnaconda安装完成后开始创建环境这里以win10 系统为例。打开Anaconda Prompt# pytorch为环境名这里创建python3.6版。conda create - n pytorch python3.6# 切换到pytorch环境activate pytorch# ***以下为1.0版本安装***# 安装GPU版本根据cuda版本选择cuda80cuda92如果cuda是9.0版则不需要# 直接conda install pytorch -c pytorch即可# win下查看cuda版本命令nvcc -Vcondainstallpytorch cuda92 - c pytorch# cpu版本使用condainstallpytorch-cpu-cpytorch# torchvision 是torch提供的计算机视觉工具包后面介绍pipinstalltorchvision# *** 官方更新了1.01 所以安装方式也有小的变更# torchversion提供了conda的安装包可以用conda直接安装了# cuda支持也升级到了10.0# 安装方式如下# cpu版本condainstallpytorch - cpu torchvision - cpu - c pytorch# GPU版condainstallpytorch torchvision cudatoolkit10.0- c pytorch# cudatoolkit后跟着相应的cuda版本# 目前测试 8.0、9.0、9.1、9.2、10.0都可安装成功验证输入python 进入importtorch torch.__version__# 得到结果1.1.01.2 配置 Jupyter Notebook新建的环境是没有安装ipykernel的所以无法注册到Jupyter Notebook中所以先要准备下环境# 安装ipykernelcondainstallipykernel# 写入环境python-mipykernelinstall--namepytorch --display-namePytorch for Deeplearning下一步就是定制 Jupyter Notebook# 切换回基础环境activate base# 创建jupyter notebook配置文件jupyter notebook --generate-config## 这里会显示创建jupyter_notebook_config.py的具体位置打开文件修改c.NotebookApp.notebook_dir默认目录位置 c.NotebookApp.iopub_data_rate_limit100000000这个改大一些否则有可能报错1.3 测试至此 Pytorch 的开发环境安装完成可以在开始菜单中打开Jupyter Notebook在New 菜单中创建文件时选择Pytorch for Deeplearning创建PyTorch的相关开发环境了2. MNIST数据集参考https://github.com/RedstoneWill/CNN_PyTorch_Beginner/blob/main/LeNet-5/LeNet-5.ipynbMNIST是一个非常有名的手写体数字识别数据集训练样本共60000个其中55000个用于训练另外5000个用于验证测试样本共10000个。MNIST数据集每张图片是单通道的大小为28x28.Pytorch支持自动下载这个数据集在Jupyter Notebook里面输入下面的代码 In [1]:importtorchimporttorch.nn as nnimporttorch.nn.functional as Fimporttorch.optim as optim from torchvisionimportdatasets, transformsimporttimefrom matplotlibimportpyplot as plt上面先加载需要用到的库然后就是处理数据集如下 In [2]:pipline_traintransforms.Compose([#随机旋转图片transforms.RandomHorizontalFlip(),#将图片尺寸resize到32x32transforms.Resize((32,32)),#将图片转化为Tensor格式transforms.ToTensor(),#正则化(当模型出现过拟合的情况时用来降低模型的复杂度)transforms.Normalize((0.1307,),(0.3081,))])pipline_testtransforms.Compose([#将图片尺寸resize到32x32transforms.Resize((32,32)), transforms.ToTensor(), transforms.Normalize((0.1307,),(0.3081,))])#下载数据集train_setdatasets.MNIST(root./data,trainTrue,downloadTrue,transformpipline_train)test_setdatasets.MNIST(root./data,trainFalse,downloadTrue,transformpipline_test)#加载数据集trainloadertorch.utils.data.DataLoader(train_set,batch_size64,shuffleTrue)testloadertorch.utils.data.DataLoader(test_set,batch_size32,shuffleFalse)这里要解释一下Pytorch MNIST数据集标准化为什么是transforms.Normalize((0.1307,), (0.3081,))标准化Normalization是神经网络对数据的一种经常性操作。标准化处理指的是样本减去它的均值再除以它的标准差最终样本将呈现均值为0方差为1的数据分布。神经网络模型偏爱标准化数据原因是均值为0方差为1的数据在sigmoid、tanh经过激活函数后求导得到的导数很大反之原始数据不仅分布不均噪声大而且数值通常都很大本例中数值范围是0~255激活函数后求导得到的导数则接近与0这也被称为梯度消失。前文已经分析神经网络是根据函数对权值求导的导数来调整权值导数越大调整幅度越大越快逼近目标函数反之导数越小调整幅度越小所以说数据的标准化有利于加快神经网络的训练。除此之外还需要保持train_set、val_set和test_set标准化系数的一致性。标准化系数就是计算要用到的均值和标准差在本例中是((0.1307,), (0.3081,))均值是0.1307标准差是0.3081这些系数都是数据集提供方计算好的数据。不同数据集就有不同的标准化系数例如([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])就是ImageNet dataset的标准化系数RGB三个通道对应三组系数当需要将imagenet预训练的参数迁移到另一神经网络时被迁移的神经网络就需要使用imagenet的系数否则预训练不仅无法起到应有的作用甚至还会帮倒忙例如我们想要用神经网络来识别夜空中的星星因为黑色是夜空的主旋律从像素上看黑色就是数据集的均值标准化操作时所有图像会减去均值黑色如此Imagenet预训练的神经网络很难识别出这些数据是夜空图像3. LeNet-5神经网络实现手写字符算法3.1 训练过程首先就要对MNIST书籍进行训练就是前向传播的过程。回忆下之前讲的神经学习知识Loss就是损失函数就是预测值跟真实值的差距要让这个损失函数越小模型就越好。预测值是根据算法f得来的算法f例如这里的LeNet5其由参数θ和输入x决定那我们可以调节的就是这个参数θ训练过程就是找这个参数θ让损失函数最小需要用到梯度下降等高数的方法。模型定义 LeNet5 网络模型包含有卷积Conv2D层最大池化层MaxPool2D全连接Linear层。3.1.1搭建LeNet-5神经网络结构并定义前向传播的过程此为核心算法In [3]:class LeNet(nn.Module): def __init__(self): super(LeNet, self).__init__()self.conv1nn.Conv2d(1,6,5)# 输入通道1灰度图输出通道6卷积核5x5self.relunn.ReLU()# ReLU激活函数self.maxpool1nn.MaxPool2d(2,2)# 池化层窗口2x2步长2self.conv2nn.Conv2d(6,16,5)# 输入通道6输出通道16卷积核5x5self.maxpool2nn.MaxPool2d(2,2)self.fc1nn.Linear(16*5*5,120)# 全连接层经过两次卷积核池化后输入维度16*5*5原本是32*32的图片输出120self.fc2nn.Linear(120,84)self.fc3nn.Linear(84,10)# 输出10类如MNIST数字0-9def forward(self, x): xself.conv1(x)xself.relu(x)xself.maxpool1(x)xself.conv2(x)#卷积xself.maxpool2(x)#池化xx.view(-1,16*5*5)# 展平多维特征图为一维向量xF.relu(self.fc1(x))xF.relu(self.fc2(x))xself.fc3(x)outputF.log_softmax(x,dim1)# 对数Softmax适用于NLLLoss损失函数returnoutput卷积→激活→池化‌重复两次逐步压缩空间维度并增强特征抽象能力。‌展平操作‌将16x5x5特征图转换为16*5*5400维向量输入全连接层。‌分类输出‌通过log_softmax计算对数概率优化时需搭配NLLLoss损失函数3.1.2 将定义好的网络结构搭载到GPU/CPU并定义优化器In [4]:#创建模型部署gpudevicetorch.device(cudaiftorch.cuda.is_available()elsecpu)modelLeNet().to(device)#定义优化器optimizeroptim.Adam(model.parameters(),lr0.001)3.1.3 定义训练过程训练过程遍历一个批大小Batch Size的数据设置计算的 NPU/GPU 资源数量执行前向传播计算计算损失值Loss通过反向传播实现优化器计算从而更新权重。In [5]:def train_runner(model, device, trainloader, optimizer, epoch):#训练模型, 启用 BatchNormalization 和 Dropout, 将BatchNormalization和Dropout置为Truemodel.train()total0correct0.0#enumerate迭代已加载的数据集,同时获取数据和数据下标fori, datainenumerate(trainloader,0): inputs, labelsdata#把模型部署到device上inputs, labelsinputs.to(device), labels.to(device)#初始化梯度optimizer.zero_grad()#保存训练结果outputsmodel(inputs)#计算损失和#多分类情况通常使用cross_entropy(交叉熵损失函数), 而对于二分类问题, 通常使用sigmodlossF.cross_entropy(outputs, labels)#获取最大概率的预测结果#dim1表示返回每一行的最大值对应的列下标predictoutputs.argmax(dim1)totallabels.size(0)correct(predictlabels).sum().item()#反向传播loss.backward()#更新参数optimizer.step()ifi %10000:#loss.item()表示当前loss的数值print(Train Epoch{}\tLoss: {:.6f}, accuracy: {:.6f}%.format(epoch, loss.item(),100*(correct/total)))Loss.append(loss.item())Accuracy.append(correct/total)returnloss.item(), correct/total3.1.4 定义测试过程In [6]:def test_runner(model, device, testloader):#模型验证, 必须要写, 否则只要有输入数据, 即使不训练, 它也会改变权值#因为调用eval()将不启用 BatchNormalization 和 Dropout, BatchNormalization和Dropout置为Falsemodel.eval()#统计模型正确率, 设置初始值correct0.0test_loss0.0total0#torch.no_grad将不会计算梯度, 也不会进行反向传播with torch.no_grad():fordata, labelintestloader: data, labeldata.to(device), label.to(device)outputmodel(data)test_lossF.cross_entropy(output, label).item()predictoutput.argmax(dim1)#计算正确数量totallabel.size(0)correct(predictlabel).sum().item()#计算损失值print(test_avarage_loss: {:.6f}, accuracy: {:.6f}%.format(test_loss/total,100*(correct/total)))3.1.5 运行In [7]:#调用epoch5Loss[]Accuracy[]forepochinrange(1, epoch1): print(start_time,time.strftime(%Y-%m-%d %H:%M:%S,time.localtime(time.time())))loss, acctrain_runner(model, device, trainloader, optimizer, epoch)Loss.append(loss)Accuracy.append(acc)test_runner(model, device, testloader)print(end_time: ,time.strftime(%Y-%m-%d %H:%M:%S,time.localtime(time.time())),\n)print(Finished Training)plt.subplot(2,1,1)plt.plot(Loss)plt.title(Loss)plt.show()plt.subplot(2,1,2)plt.plot(Accuracy)plt.title(Accuracy)plt.show()start_time2021-11-2722:15:09 Train Epoch1 Loss:2.312757, accuracy:12.500000% test_avarage_loss:0.003749, accuracy:96.100000% end_time:2021-11-2722:15:45 start_time2021-11-2722:15:45 Train Epoch2 Loss:0.069703, accuracy:100.000000% test_avarage_loss:0.002672, accuracy:97.300000% end_time:2021-11-2722:16:20 start_time2021-11-2722:16:20 Train Epoch3 Loss:0.025734, accuracy:100.000000% test_avarage_loss:0.002858, accuracy:97.130000% end_time:2021-11-2722:16:55 start_time2021-11-2722:16:55 Train Epoch4 Loss:0.155763, accuracy:93.750000% test_avarage_loss:0.002237, accuracy:97.670000% end_time:2021-11-2722:17:31 start_time2021-11-2722:17:31 Train Epoch5 Loss:0.020248, accuracy:100.000000% test_avarage_loss:0.002280, accuracy:97.720000% end_time:2021-11-2722:18:07 Finished Training3.1.6 保存模型In [8]:print(model)torch.save(model,./models/model-mnist.pth)#保存模型LeNet((conv1): Conv2d(1,6,kernel_size(5,5),stride(1,1))(relu): ReLU()(maxpool1): MaxPool2d(kernel_size2,stride2,padding0,dilation1,ceil_modeFalse)(conv2): Conv2d(6,16,kernel_size(5,5),stride(1,1))(maxpool2): MaxPool2d(kernel_size2,stride2,padding0,dilation1,ceil_modeFalse)(fc1): Linear(in_features400,out_features120,biasTrue)(fc2): Linear(in_features120,out_features84,biasTrue)(fc3): Linear(in_features84,out_features10,biasTrue))C:\Users\Administrator.conda\envs\pytorch\lib\site-packages\torch\serialization.py:360: UserWarning: Couldnt retrieve source code for container of type LeNet. It wont be checkedforcorrectness upon loading.type obj.__name__ . It wont be checked 3.2 推理过程利用刚刚训练的模型进行手写图片的测试。In [9]:importcv2if__name____main__:devicetorch.device(cudaiftorch.cuda.is_available()elsecpu)modeltorch.load(./models/model-mnist.pth)#加载模型modelmodel.to(device)model.eval()#把模型转为test模式#读取要预测的图片imgcv2.imread(./images/test_mnist.jpg)imgcv2.resize(img,dsize(32,32),interpolationcv2.INTER_NEAREST)plt.imshow(img,cmapgray)# 显示图片plt.axis(off)# 不显示坐标轴plt.show()# 导入图片图片扩展后为[113232]transtransforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,),(0.3081,))])imgcv2.cvtColor(img, cv2.COLOR_BGR2GRAY)#图片转为灰度图因为mnist数据集都是灰度图imgtrans(img)imgimg.to(device)imgimg.unsqueeze(0)#图片扩展多一维,因为输入到保存的模型中是4维的[batch_size,通道,长宽]而普通图片只有三维[通道,长宽]# 预测#output model(img)#predict output.argmax(dim1)#print(predict.item())# 预测outputmodel(img)probF.softmax(output,dim1)#prob是10个分类的概率print(概率,prob)value, predictedtorch.max(output.data,1)predictoutput.argmax(dim1)print(预测类别,predict.item())概率 tensor([[2.0888e-07,1.1599e-07,6.1852e-05,1.5797e-04,1.4975e-09,9.9977e-01,1.9271e-06,3.1589e-06,1.2186e-07,4.3405e-07]],grad_fnSoftmaxBackward)预测类别54. 算子介绍参考https://chenzomi12.github.io/01Introduction/04Sample.html上面是整个神经网络的实战其实核心的部分都被Pytorch的库给实现了例如importtorch class LeNet(nn.Module): def __init__(self): super(LeNet, self).__init__()... self.conv2nn.Conv2d(3,2,5)#卷积算法参数定义... def forward(self, x): outself.conv1(x)#卷积算法...我们在PC上执行这个conv1卷积算法可以使用GPU进行加速。那么这个算法内部是怎么运行呢首先卷积运算之前讲过每次选取输入数据一层的一个窗口和卷积核一样的宽高然后和对应的卷积核5×5 卷积核代表高 5 维宽 5 维的矩阵进行矩阵内积Dot Product 运算最后将所有的计算结果与偏置项 b 相加后输出。首先一次沿着行进行滑动一定的步长 Step再进行下次矩阵内积计算直到滑到边界后再沿着一定步长跳到下一列重复刚才的滑动窗口。最终把每一步的结果组合成输出矩阵即产生特征图Feature Map。图中输入张量形状Tensor Shape为 3×32×323 代表通道数32 代表张量高度和宽度经过 2×3×5×5 的卷积2 代表输出通道数3 代表输入通道数5 代表卷积核高度和宽度后输出张量形状为 2×28×282 代表通道28 代表高度和宽度。示例的卷积计算最终在程序上表达为多层嵌套循环为简化计算过程循环展开中没有呈现维度Dimension的形状推导Shape Inference。以 Conv2D 转换为如下 7 层循环进行 Kerenl 计算的代码# 批尺寸维度 batch_sizeforninrange(batch_size):# 输出张量通道维度 output_channelforocinrange(output_channel):# 输入张量通道维度 input_channelforicinrange(input_channel):# 输出张量高度维度 out_heightforhinrange(out_height):# 输出张量宽度维度 out_widthforwinrange(out_width):# 卷积核高度维度 filter_heightforfhinrange(filter_height):# 卷积核宽度维度 filter_widthforfwinrange(filter_width):# 乘加Multiply Add运算output[h, w, oc]input[h fw, w fh, ic]\* kernel[fw, fh, c, oc]其实Conv2D就可以成为一个算子在软件硬化的NPU开发中算子就是软件硬件化的基本单位。当前AI发展的一个核心技术就是把这些嵌套且是矩阵的软件运行使用硬件来实现这个就是NPU出现的意义和AI科技进步的一个核心。算子深度学习算法由一个个计算单元组成称这些计算单元为算子OperatorOp。AI 框架中对张量计算的种类有很多比如加法、乘法、矩阵相乘、矩阵转置等这些计算被称为算子Operator。为了更加方便的描述计算图中的算子现在来对算子这一概念进行定义数学上定义的算子一个函数空间到函数空间上的映射 OX→X对任何函数进行某一项操作都可以认为是一个算子。狭义的算子Kernel对张量 Tensor 执行的基本操作集合包括四则运算数学函数甚至是对张量元数据的修改如维度压缩Squeeze维度修改reshape等。广义的算子FunctionAI 框架中对算子模块的具体实现涉及到调度模块Kernel 模块求导模块以及代码自动生成模块。对于神经网络模型而言算子是网络模型中涉及到的计算函数。在 PyTorch 中算子对应层中的计算逻辑例如卷积层Convolution Layer中的卷积算法是一个算子全连接层Fully-connected LayerFC layer中的权值求和过程也是一个算子。AI算法计算过程中有很多有趣的问题硬件加速通用矩阵乘是计算机视觉和自然语言处理模型中的主要的计算方式同时 NPU/GPU如 TPU 脉动阵列的矩阵乘单元等其他专用人工智能芯片 ASIC 是否会针对矩阵乘作为底层支持第二章 AI 芯片体系结构相关内容片上内存其中参与计算的输入、权重和输出张量能否完全放入 NPU/GPU 缓存L1、L2、Cache如果不能放入则需要通过循环块Loop Tile编译优化进行切片。第二章 AI 芯片体系结构相关内容局部性循环执行的主要计算语句是否有局部性可以利用空间局部性缓存线内相邻的空间是否会被连续访问以及时间局部性同一块内存多久后还会被继续访问这样我们可以通过预估后尽可能的通过编译调度循环执行。第三章 AI 编译器相关内容内存管理与扩展Scale OutAI 系统工程师或者 AI 编译器会提前计算每一层的输出Output、输入Input和内核Kernel张量大小进而评估需要多少计算资源、内存管理策略设计以及换入换出策略等。第三章 AI 编译器相关内容运行时调度当算子与算子在运行时按一定调度次序执行框架如何进行运行时管理第四章推理引擎相关内容算法变换从算法来说当前多层循环的执行效率无疑是很低的是否可以转换为更加易于优化和高效的矩阵计算第四章推理引擎相关内容编程方式通过哪种编程方式可以让神经网络模型的程序开发更快如何才能减少或者降低算法工程师的开发难度让其更加聚焦 AI 算法的创新第五章 AI 框架相关内容怎么在NPU上部署AI算法之前我们使用的Python语言在PyTorch实现了AI算法那就是把Python编译成二进制程序给了CPU或者GPU执行。一个核心就是Python写的算子拆分出来然后编译的时候用硬件去实现。对于新开发的算子GPU就需要使用CUDA语言把这个算子给写出来NPU上也差不多的操作。5. AI编译器介绍参考https://chenzomi12.github.io/01Introduction/04Sample.htmlAI框架多硬件也变多进行适配就需要有一个IR中间层。随着深度学习的快速发展以及在工业界的不断拓展不断有新的 AI 框架被提出以满足不同场景的应用。但是随着 AI 技术应用的全面发展各厂家根据自身业务场景的需求在 AI 硬件和算法上不断优化和探索AI 系统的体系结构越来越复杂更多新的 AI 加速芯片被提出来其设计变得更加多样化AI 框架运行的硬件环境和算法也趋于更多样和复杂单一 AI 框架已经无法满足和平衡所有特性。所以为了提供不同框架和硬件体系结构之间的迁移性ONNX 等中间 IR 被提出其定义了表示神经网络模型的统一格式以促进不同 AI 框架之间的模型转换。为了实现硬件的多样性需要将神经网络模型计算映射到不同架构的硬件中执行。在通用硬件上高度优化的线性代数库为神经网络模型计算提供了基础加速库。此外大多数硬件供应商还发布了专属的神经网络模型计算优化库如MKL-DNN 和 cuDNN 等但基于基础加速库的优化往往落后于深度学习算法模型的更新且大多数情况下需要针对不同的平台进行定制化的开发。为了解决多硬件平台上的性能优化的问题AI 编译器以神经网络模型作为输入将 AI 计算任务通过一层或多层中间表达 IR 进行翻译和优化最后转化为目标硬件上可执行的代码与传统的编译器LLVM类似AI 编译器也采用前端、中间表示和后端分层设计的方式。目前业界主流的芯片公司和大型互联网公司等都在 AI 编译器进行了大量的投入来推进相关技术的发展。与传统编译器相比AI 编译器是一个领域特定的编译器有四个明显的特征1. Python 为主前端语言与传统编译器不同AI 编译器通常不需要 Lexer/Parser而是基于前端高级编程语言如 Python的 AST 将神经网络模型解析并构造为计算图 IR侧重于保留 shape、layout 等张量计算特征信息当然部分编译器还能保留控制流的信息。其中 Python 主要是以动态解释器为执行方式。2. 多层 IR 设计多层 IR 设计为的是满足易用性与高性能这两种类型需求1为了让开发者使用方便AI 框架会尽量对张量的计算进行抽象封装成具体的 API 或者函数算法开发者只要关注神网络模型定义上的逻辑意义模型和算子2在底层算子性能优化时可以打破算子的边界从更细粒度的循环调度等维度结合不同的硬件特点完成优化。3. 面向神经网络优化面向神经网络模型特殊的数据类型进行定义。AI 领域网络模型层的具体计算被抽象成张量的计算这就意味着 AI 编译器中主要处理的数据类型也是张量。而在反向传播过程中是深度学习最为具有有代表的特性基于计算图构建的网络模型需要具有自动微分功能。4. DSA 芯片架构支持AI 训练和推理对性能和时延都非常敏感所以大量使用专用的 AI 加速芯片进行计算而 AI 编译器其实是以 DSA 架构的 AI 加速芯片作为为中心的编译器这也是区别于通用编译器的一个特征。如果没有 AI 框架、AI 编译器和算子库的支持算法工程师进行简单的神经网络模型设计与开发都会举步维艰所以应该看到 AI 算法本身飞速发展的同时也要看到底层系统对提升整个算法研发的生产力起到了不可或缺的作用。公众号“那路谈OS与SoC嵌入式软件”欢迎关注个人文章汇总https://thatway1989.github.io

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2455183.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！