基于AlexNet卷积神经网络的手写体数字倾斜校正系统研究-附Matlab代码

news2025/7/12 7:33:30

⭕⭕ 目 录 ⭕⭕

  • ✳️ 一、引言
  • ✳️ 二、AlexNet 网络
  • ✳️ 三、实验验证
    • ✳️ 3.1 实验数据集
    • ✳️ 3.2 数据训练
    • ✳️ 3.3 手写体倾斜数字校正结果
  • ✳️ 四、参考文献
  • ✳️ 五、Matlab代码获取

✳️ 一、引言

手写体数字识别是光学字符识别(Optical CharacterRecognition,OCR)的一个分支,是利用计算机将图片中的文字信息转换为计算机语言的过程。数字识别是一种图像分类问题,一直是机器深度学习的一个热点研究问题,在快递单号、财务报表、手写票据等领域广泛应用。数字识别的重点在于算法对图像本身的特征提取,传统的分类算法都存在特征提取不充分的问题,如贝叶斯分类法、K最近邻算法、支持向量机(SupportVectorMachines,SVM)、BP(BackPropagation)神经网络等。

卷积神经网络(ConvolutionalNeuralNetwork,CNN)的出现,极大地提高了手写数字识别的准确率。CNN是由美国学者Cun提出的一种深度前馈人工神经网络,包括卷积层、池化层、全连接层和输出层。CNN通过对提取到的图像特征自动学习,能够获得更高层次的特征表达,使学习到的特征信息具有更好的泛化能力。邓长银等通过改变LeNet-5模型的网络层数、激活函数以及输入图片的尺寸,相较传统方法识别率有所提高。茹晓青等提出了一种基于形变卷积神经网络的识别方法,利用形变卷积代替VGG16模型中的普通卷积,提高了多变外观数字的识别精度。陈玄等提出了一种融合卷积神经网络,通过融合两种网络的高级特征,增加网络层的高级尺寸,增强网络的表达能力,识别的精度高于两种模型单独使用。

✳️ 二、AlexNet 网络

AlexNet 是由多伦多大学的 Krizhevsky 等在2012 年提出的, 并在当年的 ImageNet 大赛上打破了图像分类的记录获得了比赛的冠军, 使图像分类的准确率提高了一倍多。

AlexNet 的网络结构如图 1 所示, AlexNet 网络模型结构简洁, 由 5 层卷积层、2 层隐藏全连接层和一层输出全连接层组成。整个网络结构使用ReLu 代替 Sigmoid 作为激活函数, 能有效地解决Sigmoid 在层数较多的网络结构中出现的梯度弥散问题。同时网络在全连接层后添加 Dropout 操作,利用随机隐退神经元个数的方法, 在网络的训练过程中减少模型的参数量, 能够有效地防止过拟合现象的出现。在Relu激活函数后添加局部响应归一化( Local Response Norm, LRN) , 通过对局部神经元创建响应竞争机制, 提高了网络的泛化能力。使用重叠的最大池化层代替平均池化, 很好地解决了平均池化的模糊问题, 同时在一定程度上提高了图像特征的丰富性。AlexNet 模型相比于LeNet5 和传统的机器学习方法具有更高的识别精度, 但是本身的参数量巨大, 模型的训练时间长,识别速度慢。

在这里插入图片描述

图1 AlexNet 网络模型

✳️ 三、实验验证

✳️ 3.1 实验数据集

MNIST 数据集是一个手写体数字识别数据集, 包含 50 000 条训练数据集和 10 000 条测试数据集。数据集包含 250 个不同人手写的阿拉伯数字 0 ~ 9, 共 10 类手写体数字图像。每条数据集由图像和标签组成, 每张图像的大小为 28×28 = 784的一维数组, 标签类型为 One-Hot-Encoding 编码格式。部分数据集图像如图2所示。

在这里插入图片描述

图2 MNIST 数据集部分图像

✳️ 3.2 数据训练

训练周期设置100轮,每轮迭代次数设置为50,从图3图4中可知,随着训练迭代步数的增加,RMSE曲线、Loss曲线呈现明显的下降趋势,表明该网络模型可有效进行回归预测。

在这里插入图片描述

图3 AlexNet的训练结果

在这里插入图片描述

图4 AlexNet的训练结果

✳️ 3.3 手写体倾斜数字校正结果

基于AlexNet卷积神经网络的手写体数字倾斜校正结果如下图所示,可知, 该手写体的倾斜角度为12.6°

在这里插入图片描述

图5 手写体数字倾斜校正结果

✳️ 四、参考文献

[1] 王梅,李东旭.基于改进VGG-16和朴素贝叶斯的手写数字识别[J].现代电子技术,2020,43(12):176-181+186.
[2] 张成,戴俊峰,熊闻心.融合LeNet-5改进的扫描文档手写日期识别[J].计算机工程与应用,2021,57(9):207-211.
[3] 杨旭,尚振宏.基于改进AlexNet的人脸表情识别[J].激光与光电子学进展,2020,57(14):243-250.
[4] 黄健,张钢.深度卷积神经网络的目标检测算法综述[J].计算机工程与应用,2020,56(17):12-23.
[5] 汪雅琴,夏春蕾,戴曙光.基于LeNet-5模型的手写数字识别优化方法[J].计算机与数字工程,2019,47(12):3177-3181.

✳️ 五、Matlab代码获取

上述实验由Matlab编程实现,可私信博主获取。


博主简介:研究方向涉及智能图像处理、深度学习、卷积神经网络等领域,先后发表过多篇SCI论文,在科研方面经验丰富。任何与算法程序科研方面的问题,均可私信交流讨论


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/38512.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

破圈的《张朝阳的物理课》,开启“知识突围”的搜狐视频

在互联网耕耘二十多年的搜狐,正在焕发出新的活力。 从搜狐最近公布的2022年第三季度财报来看,营收1.85亿美元,其中在线游戏业务实现收入1.49亿美元,广告收入环比增长3%达到2600万美元。同时,净亏损好于此前预期。 对…

Junit执行源码分析,junit是怎么跑起来的(二)

接上一篇【Junit执行源码分析,junit是怎么跑起来的】 https://blog.csdn.net/Aqu415/article/details/127494898 这里我们接着分析 org.junit.runner.JUnitCore#run(org.junit.runner.Runner) 这个方法 public Result run(Runner runner) {Result result new Resu…

智慧监狱解决方案-最新全套文件

智慧监狱解决方案-最新全套文件一、建设背景二、思路架构三、建设方案四、获取 - 智慧监狱全套最新解决方案合集一、建设背景 “智慧监狱”是“数字法治、智慧司法”信息系统建设的重要组成部分,其主要内容是在现有监狱信息建设的基础上,充分利用大数据…

【机器学习】拉格朗日对偶性

有任何的书写错误、排版错误、概念错误等,希望大家包含指正。 拉格朗日对偶性 在求解最优化问题中,拉格朗日乘数法(Lagrange Multiplier)和 KKT(Karush Kuhn Tucker,三个人名)条件是两种最常用…

高性能零售IT系统的建设07-通过一次重大危机感受Redis从使用到失智到理性的治理

介绍 在2020年年初我接手的一座“屎山”里含有Redis框架和机制,它使用的是sentinel模式。其实sentinel模式并不是重点,按照我的经验,每天单店10万单也一样可以使用Redis Sentinel。只有到达新浪微博啦、头条啦这种大厂才有必要去架设redis cl…

Linux进程替换

进程替换 假如操作系统正在执行某一个程序,我们可以利用程序替换函数指定一个新的程序,让操作系统去执行我们新指定的程序。也就是这样一种情形下,我们fork一个进程,如果fork成功,子进程会和父进程执行相同的代码&…

基于springboot+vue的社区健康码管理系统(前后端分离)

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战 主要内容:毕业设计(Javaweb项目|小程序等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 项目介绍…

Hive数据操纵语言-DML(Load、insert、事务表)

1. Load加载数据 1.1 概述 主要为将数据文件移动到Hive表对应的位置,即复制、移动操作 1.2 语法 1.2.1 filepath 表示待移动数据的路径文件路径支持下面三种形式,要结合LOCAL关键字一起考虑: 相对路径,例如:projec…

音乐播放

在Qt5中使用Qt Multimedia 模块来实现多媒体应用(音视频播放和控制,相机拍照。收音等)。 使用多媒体模块时需要在pro文件中添加: QT multimedia QMediaPlayer(播放音频) 不追求低延迟的话使用QMediaPlaye…

作业练习3:类的继承

作业练习3:类的继承 面向对象程序设计(C) WHUT-CS 2022 Spring 源码传送门 传送门:https://pan.baidu.com/s/11KwE6tQzC_H-31AFgEWtOg?pwd1111 I.作业目的 本次实验主要在于学习使用C类继承机制实现程序功能。C中的举继承机制能够用于表示类之间的…

Crack:wodXMPP ActiveX 即时通讯组件

wodXMPP ActiveX 组件 XMPP组件,Jabber(ICQ MSN AIM Yahoo GTalk)即时通讯组件 wodXMPP 是 XMPP/Jabber(可扩展消息传递和状态协议)协议的客户端组件。它用于创建轻量级的消息传递客户端,并且除了 wodXMPP 之外不需要其他第 3 方要…

第八章《Java高级语法》第10节:注解

注解可以被理解为一种特殊的注释。普通注释是添加到代码中的人类语言,它可以提高程序的可读性。当源程序被编译为字节码之后,普通注释都会被去除掉,因为这些注释对代码的执行没有任何影响。因此,普通注释只能对代码的阅读者起到帮助。而注释则不同,注释可以对编译器和虚拟…

数字验证学习笔记——UVM学习1

一、类库地图 在SV模块中,验证环境整体的构建,是从底层模块的验证组件搭建到通信和激励生成这些元素无论是软件对象的创建、访问、修改、配置,还是组件之间的通信等都是通过用户自定义的方式来实现的。UVM验证方法学作为之前所有方法学的融合…

ubuntu22.04安装教程

1、选择语言 (默认) 2、取消安装更新 (默认) 3、选择键盘语言 (默认) 4、配置ip,可以直接选择dhcp,也可选择配置静态ip (默认) 5、配置代理 跳过不填写 6、设置镜像源 (默认) https://mirrors.aliyun.com/ubuntu/ 7、磁盘配置,默认即可 (默…

Java_接口使用实例

目录 给对象数组排序 按年龄来比较: 按名字来比较: 尝试自己实现一个 sort 方法 给对象数组排序 class Student {public String name;public int age;public int score;public Student(String name, int age, int score) {this.name name;this…

nginx基础篇

nginx基础篇nginx最小配置解析域名解析常用解析多租户解析Nginx虚拟主机域名配置ServerName匹配规则完整匹配通配符匹配通配符结束匹配正则匹配隧道式模型、网关、代理正向代理&反向代理网关隧道式模式反向代理反向代理一台服务器反向代理多台服务器负载均衡策略动静分离UR…

【微服务】SpringCloud断路器Hystrix

目录 一、断路器Hystrix 1、引入断路器 1.1、依赖 1.2、示例 2、传播安全上下文或使用Spring范围 3、健康指标 4、 Hystrix超时和RibbonClient 一、断路器Hystrix 较低级别的服务中的服务故障可能会导致级联故障,直至服务雪崩。在metrics.rollingStats.timeI…

五、Nacos

文章目录一、安装nacos1.压缩包下载地址2.nacos 中修改端口(8848 端口被占用需要修改)3.启动 nacos:二、nacos项目环境配置三、nacos服务分级存储模型四、NacosRule 实现负载均衡五、服务实例的权重设置六、nacos注册中心一、安装nacos 1.压缩包下载地址 https://…

LeetCode HOT 100 —— 33.搜索旋转排序数组

题目 整数数组 nums 按升序排列&#xff0c;数组中的值 互不相同 在传递给函数之前&#xff0c;nums 在预先未知的某个下标 k&#xff08;0 < k < nums.length&#xff09;上进行了 旋转&#xff0c;使数组变为 [nums[k], nums[k1], …, nums[n-1], nums[0], nums[1], ……

Hive之存储和压缩

Hive系列 第十章 存储和压缩 10.1 首先看一下Hadoop中的压缩 10.1.1 基本概念 1、概念 压缩是一种通过特定的算法来减小计算机文件大小的机制。这种机制是一种很方便的发明&#xff0c;尤其是对网络用户&#xff0c;因为它可以减小文件的字节总数&#xff0c;使文件能够通过…