OpenCv高阶(八)——摄像头调用、摄像头OCR

news2025/5/19 10:28:15

文章目录

  • 前言
  • 一、摄像头调用通用方法
      • 1、导入必要的库
      • 2、创建摄像头接口
  • 二、摄像头OCR
    • 1.引入库
    • 2、定义函数
      • (1)定义显示opencv显示函数
      • (2)保持宽高比的缩放函数
      • (3)坐标点排序函数
      • (4) 四点透视变换实现
    • 3、读取摄像头显示摄像头画面并做灰度处理
    • 4、做中值滤波并使用canny边缘检测
    • 5、轮廓检测
    • 6、遍历轮廓
    • 7、透视变换
    • 完整代码展示
  • 总结
      • 应用
        • 文档处理
        • 车牌识别
        • 身份证识别
        • 场景文字识别


前言

摄像头 OCR 是指利用摄像头采集图像信息,然后通过光学字符识别(OCR)技术对图像中的文字进行识别和处理的一种技术手段。

一、摄像头调用通用方法

1、导入必要的库

import cv2
import numpy as np

2、创建摄像头接口

读取本地的视频文件或者摄像头,接收的参数为视频文件的地址,或者摄像头的名称(一般0指的是电脑自身的摄像头,1则是外接的摄像头)

video_capture=cv2.VideoCapture('../data/test.avi')

#判断视频文件或者摄像头是否正常读取,如果读取失败则返回提示信息
if not  video_capture.isOpened():
    print("视频打开失败")
    exit()
   

视频以及摄像头文件我们都可以把它理解成老式的电影,一段视频以及摄像头读取的画面都可以看成是一张图片一张图片的播放,只是视频和摄像头的播放速度很快,导致我们视觉上认为动作是连贯的,帧率也就是一秒播放多少张图片。

在这里插入图片描述
因此,在使用opencv读取摄像头和视频文件时我们采用循环的方法来不断获取摄像头读取的画面。
当我们要使用opencv来做视觉方向的问题时,我们就可以调用摄像头,对对读取到的每一帧画面做视觉方面的处理,来达到与摄像头结合的动态效果。

while True:
    ret,frame=video_capture.read()
	#ret是一个标志,检测摄像头是否读取成功,frame则是接收到的画面,是一张一张的图片
	
    if not ret:
        break
	
	#设置这个if判断,是为了手动控制跳出循环,当我们按下ESC键时跳出循环停止读取画面。
    if cv2.waitKey(100)==27:
        break

#释放摄像头资源
video_capture.release()
cv2.destroyAllWindows()

二、摄像头OCR

简单处理文字,将不正的文档扶正并使文档的字迹更清晰。

1.引入库

import numpy as np
import cv2

2、定义函数

(1)定义显示opencv显示函数

def cv_show(name,value):
    cv2.imshow(name,value)
    cv2.waitKey(50)

(2)保持宽高比的缩放函数

def resize(image, width=None, height=None, inter=cv2.INTER_AREA):
	dim=None
    (h, w) = image.shape[:2]  # 获取原始高度和宽度(兼容灰度/彩色图)
    
    # 尺寸计算逻辑
    if width is None and height is None:
        return image  # 无缩放直接返回
    if width is None:
        r = height / float(h)  # 计算高度缩放比例
        dim = (int(w * r), height)  # 新尺寸元组(宽度, 高度)
    else:
        r = width / float(w)    # 计算宽度缩放比例
        dim = (width, int(h * r))
    
    # 执行缩放操作
    resized = cv2.resize(image, dim, interpolation=inter)
    return resized

(3)坐标点排序函数

def order_points(pts):
    rect = np.zeros((4, 2), dtype="float32")  # 初始化4x2矩阵
    #按顺序找到对应的坐标0123,分别是左上右上右下、左下
    # 计算坐标点x+y的和
    s = pts.sum(axis=1)  # 形状:(4,) ,对矩阵的每一行进行求和操作
    rect[0] = pts[np.argmin(s)]  # 左上角:x+y最小
    rect[2] = pts[np.argmax(s)]  # 右下角:x+y最大
    
    # 计算坐标点x-y的差
    diff = np.diff(pts, axis=1)  # 形状:(4,1)
    rect[1] = pts[np.argmin(diff)]  # 右上角:x-y最小(即y相对较大)
    rect[3] = pts[np.argmax(diff)]  # 左下角:x-y最大(即y相对较小)
    
    return rect  # 返回有序坐标:[左上, 右上, 右下, 左下]

(4) 四点透视变换实现

def four_point_transform(image, pts):
    # 坐标排序(关键步骤!)
    rect = order_points(pts)
    (tl, tr, br, bl) = rect  # 解构赋值四个顶点
    
    # 计算输出图像的宽度(取两组对边最大值)
    widthA = np.sqrt(((br[0] - bl[0]) ** 2) + (br[1] - bl[1]) ** 2)
    widthB = np.sqrt(((tr[0] - tl[0]) ** 2) + (tr[1] - tl[1]) ** 2)
    maxWidth = max(int(widthA), int(widthB))
    
    # 计算输出图像的高度(同理)
    heightA = np.sqrt(((tr[0] - br[0]) ** 2) + (tr[1] - br[1]) ** 2)
    heightB = np.sqrt(((tl[0] - bl[0]) ** 2) + (tl[1] - bl[1]) ** 2)
    maxHeight = max(int(heightA), int(heightB))
    
    # 定义目标点坐标(规范坐标系)
    dst = np.array([
        [0, 0],
        [maxWidth - 1, 0],          # 宽度方向预留1像素边界
        [maxWidth - 1, maxHeight - 1],
        [0, maxHeight - 1]], dtype="float32")
    
    # 计算透视变换矩阵(核心数学操作)
    M = cv2.getPerspectiveTransform(rect, dst)
    
    # 执行透视变换
    warped = cv2.warpPerspective(image, M, (maxWidth, maxHeight))
    return warped

3、读取摄像头显示摄像头画面并做灰度处理

#读取输入
cap=cv2.VideoCapture(0)
if not cap.isOpened():
    print("摄像头打开失败")
    exit()

while True:
    flag=0  #是否检测到文档的标志
    ret,frame=cap.read()
    orig=frame.copy()
    if not ret: #读取失败则退出循环
        print("不能读取摄像头")
        break
    cv_show('iamge',frame)

    gray=cv2.cvtColor(frame,cv2.COLOR_BGRA2GRAY)

4、做中值滤波并使用canny边缘检测

gray=cv2.medianBlur(gray,3)
edged=cv2.Canny(gray,75,200)
cv_show('i',edged)

中值滤波核大小 3 适用于720p分辨率

Canny阈值可改为自适应算法(如基于图像亮度百分比)

5、轮廓检测

#轮廓检测
    cnts=cv2.findContours(edged,cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_SIMPLE)[-2]

    cnts=sorted(cnts,key=cv2.contourArea,reverse=True)[:3]# 取面积前三的轮廓
    image_contours=cv2.drawContours(orig,cnts,-1,(0,255,0),2) # 多边形近似
    cv_show('image_contours',image_contours)

RETR_EXTERNAL 只检测最外层轮廓(假设文档无嵌套)

面积阈值 20000 需根据摄像头分辨率调整(例如:1280x720下约为2%画面占比)

6、遍历轮廓

 #遍历轮廓做透视变换
    for c in cnts:
        peri=cv2.arcLength(c,True)

        #做轮廓近似
        approx=cv2.approxPolyDP(c,0.01*peri,True)
        area=cv2.contourArea(approx)

        #做透视变换要求轮廓近似满足是4个点,挑选出符合要求的结果

        if area>20000 and len(approx)==4:
            screenCnt=approx
            flag=1  #标识找到了文档
            print(peri,area)
            print('检测到文档')
            break

7、透视变换

if flag==1:

        image_contours=cv2.drawContours(frame,[screenCnt],0,(0,255,0),2)
        cv_show('image',image_contours)

        #左四点转换,扶正后的坐标

        warped=four_point_transform(orig,screenCnt.reshape(4,2))
        cv_show('warped',warped)
        
cap.release()
cv2.destroyAllWindows()

完整代码展示

import numpy as np
import cv2

def cv_show(name,value):
    cv2.imshow(name,value)
    cv2.waitKey(50)


def resize(image,width=None,height=None,inter=cv2.INTER_AREA):

    dim=None
    (h,w)=image.shape[:2]
    if width is None and height is None:
        return image
    if width is None:
        r=height/float(h)
        dim=(int(w*r),height)
    else:
        r=width/float(w)
        dim=(width,int(h*r))
    resized=cv2.resize(image,dim,interpolation=inter)
    return resized


def order_points(pts):
    #一共四个坐标点
    rect=np.zeros((4,2),dtype='float32')
    #按顺序找到对应的坐标0123,分别是左上右上右下、左下
    s=pts.sum(axis=1)   #对矩阵的每一行进行求和操作
    rect[0]=pts[np.argmin(s)]
    rect[2]=pts[np.argmax(s)]
    diff=np.diff(pts,axis=1)
    rect[1]=pts[np.argmin(diff)]
    rect[3]=pts[np.argmax(diff)]
    return rect


def four_point_transform(image,pts):

    #获取输入的坐标点
    rect=order_points(pts)
    (tl,tr,br,bl)=rect

    #计算输入的w和h值
    widthA=np.sqrt(((br[0]-bl[0])**2) +( br[1] - bl[1])**2)
    widthB = np.sqrt(((tr[0] - tl[0]) ** 2) + (tr[1] - tl[1]) ** 2)
    maxwidth=max(int(widthA),int(widthB))
    heightA=np.sqrt(((tr[0]-br[0])**2) +( tr[1] - br[1])**2)
    heightB=np.sqrt(((tl[0]-bl[0])**2) +( tl[1] - bl[1])**2)
    maxheight=max(int(heightA),int(heightB))

    dst=np.array([[0,0],[maxwidth,0],[maxwidth,maxheight],[0,maxheight]],dtype='float32')

    M=cv2.getPerspectiveTransform(rect,dst)
    warped=cv2.warpPerspective(image,M,(maxwidth,maxheight))
    return warped

#读取输入
cap=cv2.VideoCapture(0)
if not cap.isOpened():
    print("摄像头打开失败")
    exit()

while True:
    flag=0  #是否检测到文档的标志
    ret,frame=cap.read()
    orig=frame.copy()
    if not ret: #读取失败则退出循环
        print("不能读取摄像头")
        break
    cv_show('iamge',frame)

    gray=cv2.cvtColor(frame,cv2.COLOR_BGRA2GRAY)

    gray=cv2.medianBlur(gray,3)
    edged=cv2.Canny(gray,75,200)

    cv_show('i',edged)

    #轮廓检测
    cnts=cv2.findContours(edged,cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_SIMPLE)[-2]

    cnts=sorted(cnts,key=cv2.contourArea,reverse=True)[:3]
    image_contours=cv2.drawContours(orig,cnts,-1,(0,255,0),2)
    cv_show('image_contours',image_contours)

    #遍历轮廓做透视变换
    for c in cnts:
        peri=cv2.arcLength(c,True)

        #做轮廓近似
        approx=cv2.approxPolyDP(c,0.01*peri,True)
        area=cv2.contourArea(approx)

        #做透视变换要求轮廓近似满足是4个点,挑选出符合要求的结果

        if area>20000 and len(approx)==4:
            screenCnt=approx
            flag=1  #标识找到了文档
            print(peri,area)
            print('检测到文档')
            break

    if flag==1:

        image_contours=cv2.drawContours(frame,[screenCnt],0,(0,255,0),2)
        cv_show('image',image_contours)

        #左四点转换,扶正后的坐标

        warped=four_point_transform(orig,screenCnt.reshape(4,2))
        cv_show('warped',warped)
        
cap.release()
cv2.destroyAllWindows()

总结

应用

文档处理

快速将纸质文档中的文字转换为电子文本,方便编辑、存储和检索,提高文字处理效率。

车牌识别

在智能交通系统中,通过摄像头拍摄车牌图像,利用 OCR 技术自动识别车牌号码,实现车辆的自动管理和收费等功能。

身份证识别

在一些需要身份验证的场合,如银行开户、酒店入住等,通过摄像头 OCR 快速识别身份证上的文字信息,提高信息录入效率和准确性。

场景文字识别

在图像和视频内容分析中,识别场景中的文字,如街道标志、广告招牌等,为图像理解和信息检索提供支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2379211.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java开发经验——阿里巴巴编码规范实践解析3

摘要 本文深入解析了阿里巴巴编码规范中关于错误码的制定与管理原则,强调错误码应便于快速溯源和沟通标准化,避免过于复杂。介绍了错误码的命名与设计示例,推荐采用模块前缀、错误类型码和业务编号的结构。同时,探讨了项目错误信…

MySQL——6、内置函数

内置函数 1、日期函数2、字符串函数3、数学函数4、其他函数 1、日期函数 1.1、获取当前日期: 1.2、获取当前时间: 1.3、获取当前时间戳: 1.4、获取当前日期时间: 1.5、提取出日期: 1.6、给日期添加天数或时间…

低延迟与高性能的技术优势解析:SmartPlayer VS VLC Media Player

在实时视频流的应用中,RTSP(Real-Time Streaming Protocol)播放器扮演着至关重要的角色,尤其是在视频监控、远程医疗、直播等高实时性需求的场景中。随着行业需求的不断升级,对播放器的低延迟、稳定性、兼容性等方面的…

【交互 / 差分约束】

题目 代码 #include <bits/stdc.h> using namespace std; using ll long long;const int N 10510; const int M 200 * 500 10; int h[N], ne[M], e[M], w[M], idx; ll d[N]; int n, m; bool st[N]; int cnt[N];void add(int a, int b, int c) {w[idx] c, e[idx] b…

宝塔面板部署前后端项目SpringBoot+Vue2

这篇博客主要用来记录宝塔部署前端后端项目的过程。因为宝塔部署有点麻烦&#xff0c;至少在我看来挺麻烦的。我还是喜欢原始的ssh连接服务器进行操作。但是公司有项目用到了宝塔&#xff0c;没办法啊&#xff0c;只能摸索记录一下。 我们需要提前准备好后端项目的jar包和前端项…

现代生活健康养生新视角

在科技飞速发展的今天&#xff0c;我们的生活方式发生巨大转变&#xff0c;健康养生也需要新视角。从光线、声音等生活细节入手&#xff0c;能为健康管理开辟新路径。​ 光线与健康密切相关。早晨接触自然光线&#xff0c;可调节生物钟&#xff0c;提升血清素水平&#xff0c;…

多模态大语言模型arxiv论文略读(八十一)

What is the Visual Cognition Gap between Humans and Multimodal LLMs? ➡️ 论文标题&#xff1a;What is the Visual Cognition Gap between Humans and Multimodal LLMs? ➡️ 论文作者&#xff1a;Xu Cao, Bolin Lai, Wenqian Ye, Yunsheng Ma, Joerg Heintz, Jintai …

3.4/Q2,Charls最新文章解读

文章题目&#xff1a;Associations between reversible and potentially reversible cognitive frailty and falls in community-dwelling older adults in China: a longitudinal study DOI&#xff1a;10.1186/s12877-025-05872-2 中文标题&#xff1a;中国社区老年人可逆性和…

通过觅思文档项目实现Obsidian文章浏览器在线访问

觅思文档项目开源地址 觅思文档项目开源地址&#xff1a;https://gitee.com/zmister/MrDoc 觅思文档部署步骤概览 服务器拉取代码&#xff1a; git clone https://gitee.com/zmister/mrdoc-install.git && cd mrdoc-install && chmod x docker-install.sh &a…

5月18总结

一.算法题总结 1. 解题思路&#xff1a;对于这个题&#xff0c;我最开始想到就是二分&#xff0c;但是头痛的是有三个解&#xff0c;如果我在-100到100之间二分&#xff0c;那么只能得出一个解&#xff0c;然后我就想了一下&#xff0c;这个要求精度&#xff0c;那么0.01这么小…

Linux Bash | Capture Output / Recall

注&#xff1a;本文为 “Linux Bash | Capture Output / Recall” 相关文章合辑。 英文引文&#xff0c;机翻未校。 中文引文&#xff0c;略作重排。 Automatically Capture Output of the Last Command Into a Variable Using Bash 使用 Bash自动将最后一个命令的输出捕获到…

2025/5/18

继续研究一下大佬的RAG项目。开始我的碎碎念。 RAG可以分成两部分&#xff1a;一个是问答&#xff0c;一个是数据处理。 问答是人提问&#xff0c;然后查数据库&#xff0c;把查的东西用大模型组织成人话&#xff0c;回答人的提问。 数据处理是把当下知识库里的东西&#xf…

基于Quicker构建从截图到公网图像链接获取的自动化流程

写在前面&#xff1a;本博客仅作记录学习之用&#xff0c;部分图片来自网络&#xff0c;如需引用请注明出处&#xff0c;同时如有侵犯您的权益&#xff0c;请联系删除&#xff01; 文章目录 前言预备内容转webp程序PicGo设置Quicker设置视频演示总结互动致谢参考 前言 在自建博…

LeetCode算 法 实 战 - - - 双 指 针 与 移 除 元 素、快 慢 指 针 与 删 除 有 序 数 组 中 的 重 复 项

LeetCode算 法 实 战 - - - 双 指 针 与 移 除 元 素、快 慢 指 针 与 删 除 有 序 数 组 中 的 重 复 项 第 一 题 - - - 移 除 元 素方 法 一 - - - 双 重 循 环方 法 二 - - - 双 指 针方 法 三 - - - 相 向 双 指 针&#xff08;面 对 面 移 动&#xff09; 第 二 题 - - -…

uniapp自定义日历计划写法(vue2)

文章目录 uniapp自定义日历计划写法(vue2)1、效果2、实现源码前言:我们有时候需要实现的日历找不到相应的插件的时候,往往需要手动去写一个日历,以下就是我遇到这样的问题时,手搓出来的一个解决方案,希望可以帮助到更多的人。创作不易,请多多支持uniapp自定义日历计划写…

Java IO框架

I/O框架 流 流的分类&#xff1a; 按方向&#xff1a; 输入流&#xff1a;将存储设备的内容读入到内存中 输出流&#xff1a;将内存的内容写入到存储设备中 按单位&#xff1a; 字节流&#xff1a;以字节为单位&#xff0c;可以读取所有数据 字符流&#xff1a;以字符为单…

数据库2——查询

查询 学习内容学习感受 学习内容 一、实验目的与要求&#xff1a; 1、掌握SQL单表及多表之间的查询 2、掌握统计及分组函数 二、实验内容&#xff1a; 1.简单查询 ① 从fruits表中检索s_id为100的供货商所供货的水果名和价格 源码&#xff1a; SELECT f_name, f_price FROM…

Android 性能优化入门(一)—— 数据结构优化

1、概述 一款 app 除了要有令人惊叹的功能和令人发指交互之外&#xff0c;在性能上也应该追求丝滑的要求&#xff0c;这样才能更好地提高用户体验&#xff1a; 优化目的性能指标优化的方向更快流畅性启动速度页面显示速度(显示和切换)响应速度更稳定稳定性避免出现 应用崩溃&…

数据库中的锁机制

目录 数据库中的锁机制:原理、分类与实际案例详解 一、数据库锁的核心作用与基本概念 1.1 为什么需要数据库锁? 1.2 锁的分类 二、锁机制的实现与典型场景 2.1 共享锁(Shared Lock) 工作原理 适用场景 代码示例(MySQL) 案例分析 2.2 排他锁(Exclusive Lock) …

【网络入侵检测】基于Suricata源码分析运行模式(Runmode)

【作者主页】只道当时是寻常 【专栏介绍】Suricata入侵检测。专注网络、主机安全&#xff0c;欢迎关注与评论。 1. 概要 &#x1f44b; 在 Suricata 中抽象出线程、线程模块和队列三个概念&#xff1a;线程类似进程&#xff0c;可多线程并行执行操作&#xff1b;监听、解码、检…