OpenCV4 :并行计算cv::parallel_for_

news2025/7/21 9:02:22

OpenCV4 :并行计算cv::parallel_for_

在计算机视觉和图像处理领域,OpenCV(开源计算机视觉库)是一个非常强大和广泛使用的库。随着图像分辨率的提高和计算任务的复杂度增加,实时处理变得越来越困难。为了解决这个问题,OpenCV提供了并行处理能力,可以显著提高代码的性能。本文将介绍如何利用OpenCV的并行处理能力来优化图像处理任务。

OpenCV的并行框架

OpenCV自2.4版本以来就提供了一个并行框架,允许在多个核心或处理器上并行执行代码。该框架提供了一种简单且高效的方式来编写可以利用多核处理器的代码。OpenCV4继续沿用并扩展了这个并行框架,增加了对新硬件和平台的支持。

官方文档中的并行框架教程为我们提供了详细的指南和示例代码,说明了如何使用OpenCV的cv::parallel_for_函数。

cv::parallel_for_函数

cv::parallel_for_函数是OpenCV并行框架的核心。该函数允许我们并行执行循环,每个循环迭代可以在不同的线程上执行。cv::parallel_for_函数接受一个cv::Range对象和一个实现了cv::ParallelLoopBody接口的对象。

cv::parallel_for_(cv::Range(0, count), MyParallelLoopBody());

其中,MyParallelLoopBody需要实现cv::ParallelLoopBody接口的virtual void operator()(const cv::Range& range) const方法。

并行卷积示例

我们创建了两个并行卷积类:parallelConvparallelConvByRow,它们都继承了cv::ParallelLoopBody接口。parallelConv类按图像的每个像素并行执行卷积,而parallelConvByRow类则按图像的每行并行执行卷积。

parallelConv

parallelConv类的构造函数接受源图像、目标图像和卷积核作为参数。它还计算了卷积核的半径,并为源图像添加了边框以处理边界像素。

class parallelConv : public cv::ParallelLoopBody
{
private:
	Mat m_src;
	Mat& m_dst;
	Mat m_kernel;
	int sz;

public:
	parallelConv(Mat src, Mat& dst, Mat kernel): m_src(src), m_dst(dst), m_kernel(kernel), sz(kernel.rows / 2)
	{
		cv::copyMakeBorder(src, m_src, sz, sz, sz, sz, cv::BORDER_REPLICATE);
	}

	virtual void operator()(const cv::Range& range) const override
	{
		for (int r = range.start; r < range.end; ++r)
		{
			auto [i, j] = std::div(r, m_dst.cols);
			double value = 0;

			for (int k = -sz; k <= sz; ++k)
			{
				auto sptr = m_src.ptr(i + sz + k);

				for (int l = -sz; l <= sz; ++l)
				{
					value += m_kernel.at<double>(k + sz, l + sz) * sptr[j + sz + l];
				}
			}
			m_dst.at<uchar>(i, j) = cv::saturate_cast<uchar>(value);
		}
	}
};

operator()方法中,我们遍历了指定范围内的所有像素,并为每个像素执行卷积操作。

parallelConvByRow

parallelConv类类似,parallelConvByRow类也接受源图像、目标图像和卷积核作为参数,并为源图像添加了边框。

class parallelConvByRow : public cv::ParallelLoopBody
{
private:
	Mat m_src;
	Mat& m_dst;
	Mat m_kernel;
	int sz;
	int cols;

public:
	parallelConvByRow(Mat src, Mat& dst, Mat kernel)
		: m_src(src), m_dst(dst), m_kernel(kernel), sz(kernel.rows / 2), cols(src.cols)
	{
		cv::copyMakeBorder(src, m_src, sz, sz, sz, sz, cv::BORDER_REPLICATE);
	}

	virtual void operator()(const cv::Range& range) const override
	{
		for (int i = range.start; i < range.end; ++i)
		{
			if (i >= m_dst.rows)
			{
				continue;
			}
			auto dptr = m_dst.ptr<uchar>(i);

			for (int j = 0; j < cols; ++j)
			{
				double value = 0;

				for (int k = -sz; k <= sz; ++k)
				{
					auto sptr = m_src.ptr(i + sz + k);

					for (int l = -sz; l <= sz; ++l)
					{
						value += m_kernel.at<double>(k + sz, l + sz) * sptr[j + sz + l];
					}
				}
				dptr[j] = cv::saturate_cast<uchar>(value);
			}
		}
	}
};

operator()方法中,我们遍历了指定范围内的所有行,并为每行的每个像素执行卷积操作。

性能比较

通过比较顺序卷积和两种并行卷积的执行时间,我们可以看到并行卷积显著提高了性能。尤其是在处理大图像或使用大卷积核时,这种性能提升尤为明显。

	// 非并行方法
	auto start_seq = std::chrono::high_resolution_clock::now();
	seqConv(src, dst_seq, kernel);
	auto end_seq = std::chrono::high_resolution_clock::now();
	std::chrono::duration<double> diff_seq = end_seq - start_seq;
	std::cout << "Time taken by sequential method: " << diff_seq.count() << " s" << std::endl;

	// 方法 1:整体遍历
	auto start1 = std::chrono::high_resolution_clock::now();
	parallelConv obj1(src, dst1, kernel);
	cv::parallel_for_(cv::Range(0, src.rows * src.cols), obj1);
	auto end1 = std::chrono::high_resolution_clock::now();
	std::chrono::duration<double> diff1 = end1 - start1;
	std::cout << "Time taken by whole image traversal: " << diff1.count() << " s" << std::endl;

	// 方法 2:按行遍历
	auto start2 = std::chrono::high_resolution_clock::now();
	parallelConvByRow obj2(src, dst2, kernel);
	cv::parallel_for_(cv::Range(0, src.rows), obj2);
	auto end2 = std::chrono::high_resolution_clock::now();
	std::chrono::duration<double> diff2 = end2 - start2;
	std::cout << "Time taken by row-by-row traversal: " << diff2.count() << " s" << std::endl;
Time taken by sequential method: 0.308864 s
Time taken by whole image traversal: 0.2328 s
Time taken by row-by-row traversal: 0.169044 s

image-20231017150538260

image-20231017150442676

完整代码

#include <iostream>
#include <opencv2/core/core.hpp>
#include <opencv2/highgui/highgui.hpp>
#include <opencv2/imgproc/imgproc.hpp>
#include <chrono>
#include <span>
using cv::Mat;

void seqConv(Mat src, Mat& dst, Mat kernel)
{
	const int rows = src.rows, cols = src.cols;
	dst = Mat(rows, cols, src.type());

	int sz = kernel.rows / 2;
	Mat src_padded;
	cv::copyMakeBorder(src, src_padded, sz, sz, sz, sz, CV_HAL_BORDER_REPLICATE);

	for (int i = 0; i < rows; ++i)
	{
		auto dptr = dst.ptr<uchar>(i);

		for (int j = 0; j < cols; ++j)
		{
			double value = 0;
			for (int k = -sz; k <= sz; ++k)
			{
				auto sptr = src_padded.ptr<uchar>(i + sz + k);

				for (int l = -sz; l <= sz; ++l)
				{
					value += kernel.ptr<double>(k + sz)[l + sz] * sptr[j + sz + l];
				}
			}
			dptr[j] = cv::saturate_cast<uchar>(value);
		}
	}
}


class parallelConv : public cv::ParallelLoopBody
{
private:
	Mat m_src;
	Mat& m_dst;
	Mat m_kernel;
	int sz;

public:
	parallelConv(Mat src, Mat& dst, Mat kernel): m_src(src), m_dst(dst), m_kernel(kernel), sz(kernel.rows / 2)
	{
		cv::copyMakeBorder(src, m_src, sz, sz, sz, sz, cv::BORDER_REPLICATE);
	}

	virtual void operator()(const cv::Range& range) const override
	{
		for (int r = range.start; r < range.end; ++r)
		{
			auto [i, j] = std::div(r, m_dst.cols);
			double value = 0;

			for (int k = -sz; k <= sz; ++k)
			{
				auto sptr = m_src.ptr(i + sz + k);

				for (int l = -sz; l <= sz; ++l)
				{
					value += m_kernel.at<double>(k + sz, l + sz) * sptr[j + sz + l];
				}
			}
			m_dst.at<uchar>(i, j) = cv::saturate_cast<uchar>(value);
		}
	}
};

class parallelConvByRow : public cv::ParallelLoopBody
{
private:
	Mat m_src;
	Mat& m_dst;
	Mat m_kernel;
	int sz;
	int cols;

public:
	parallelConvByRow(Mat src, Mat& dst, Mat kernel)
		: m_src(src), m_dst(dst), m_kernel(kernel), sz(kernel.rows / 2), cols(src.cols)
	{
		cv::copyMakeBorder(src, m_src, sz, sz, sz, sz, cv::BORDER_REPLICATE);
	}

	virtual void operator()(const cv::Range& range) const override
	{
		for (int i = range.start; i < range.end; ++i)
		{
			if (i >= m_dst.rows)
			{
				continue;
			}
			auto dptr = m_dst.ptr<uchar>(i);

			for (int j = 0; j < cols; ++j)
			{
				double value = 0;

				for (int k = -sz; k <= sz; ++k)
				{
					auto sptr = m_src.ptr(i + sz + k);

					for (int l = -sz; l <= sz; ++l)
					{
						value += m_kernel.at<double>(k + sz, l + sz) * sptr[j + sz + l];
					}
				}
				dptr[j] = cv::saturate_cast<uchar>(value);
			}
		}
	}
};

int main(int argc, char* argv[])
{
	cv::setNumThreads(4);
	Mat src = cv::imread(R"(C:\4.jpg)", cv::IMREAD_GRAYSCALE); // 读取灰度图像
	if (src.empty())
	{
		std::cerr << "Could not read the image!" << std::endl;
		return 1;
	}

	Mat kernel = (cv::Mat_<double>(7, 7) << 0, 0, 0, 0, 0, 0, 0,
		0, 0, -1, -1, -1, 0, 0,
		0, -1, -1, -1, -1, -1, 0,
		0, -1, -1, 24, -1, -1, 0,
		0, -1, -1, -1, -1, -1, 0,
		0, 0, -1, -1, -1, 0, 0,
		0, 0, 0, 0, 0, 0, 0);

	Mat dst1, dst2, dst_seq;
	dst1 = Mat::zeros(src.size(), src.type());
	dst2 = Mat::zeros(src.size(), src.type());
	parallelConv obj(src, dst1, kernel);
	cv::parallel_for_(cv::Range(0, src.rows * src.cols), obj);

	// 非并行方法
	auto start_seq = std::chrono::high_resolution_clock::now();
	seqConv(src, dst_seq, kernel);
	auto end_seq = std::chrono::high_resolution_clock::now();
	std::chrono::duration<double> diff_seq = end_seq - start_seq;
	std::cout << "Time taken by sequential method: " << diff_seq.count() << " s" << std::endl;

	// 方法 1:整体遍历
	auto start1 = std::chrono::high_resolution_clock::now();
	parallelConv obj1(src, dst1, kernel);
	cv::parallel_for_(cv::Range(0, src.rows * src.cols), obj1);
	auto end1 = std::chrono::high_resolution_clock::now();
	std::chrono::duration<double> diff1 = end1 - start1;
	std::cout << "Time taken by whole image traversal: " << diff1.count() << " s" << std::endl;

	// 方法 2:按行遍历
	auto start2 = std::chrono::high_resolution_clock::now();
	parallelConvByRow obj2(src, dst2, kernel);
	cv::parallel_for_(cv::Range(0, src.rows), obj2);
	auto end2 = std::chrono::high_resolution_clock::now();
	std::chrono::duration<double> diff2 = end2 - start2;
	std::cout << "Time taken by row-by-row traversal: " << diff2.count() << " s" << std::endl;

	cv::imshow("Original Image", src);
	cv::imshow("Sequential Method", dst_seq);
	cv::imshow("Whole Image Traversal", dst1);
	cv::imshow("Row-by-Row Traversal", dst2);

	cv::waitKey(0);

	return 0;

	return 0;
}


公众号:coding日记

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1102344.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于springboot实现汉服文化分享平台项目【项目源码+论文说明】计算机毕业设计

摘要 本论文主要论述了如何使用JAVA语言开发一个汉服文化平台网站 &#xff0c;本系统将严格按照软件开发流程进行各个阶段的工作&#xff0c;采用B/S架构&#xff0c;面向对象编程思想进行项目开发。在引言中&#xff0c;作者将论述汉服文化平台网站的当前背景以及系统开发的…

selenium教程 —— css定位

说明&#xff1a;本篇博客基于selenium 4.1.0 selenium-css定位 element_css driver.find_element(By.CSS_SELECTOR, css表达式) 复制代码 css定位说明 selenium中的css定位&#xff0c;实际是通过css选择器来定位到具体元素&#xff0c;css选择器来自于css语法 css定位优点…

使用cpolar内网端口映射技术实现U8用友ERP本地部署的异地访问

文章目录 前言1. 服务器本机安装U8并调试设置2. 用友U8借助cpolar实现企业远程办公2.1 在被控端电脑上&#xff0c;点击开始菜单栏&#xff0c;打开设置——系统2.2 找到远程桌面2.3 启用远程桌面 3. 安装cpolar内网穿透3.1 注册cpolar账号3.2 下载cpolar客户端 4. 获取远程桌面…

Linux 如何进行内存分配

虚拟内存管理回顾 在 Linux 操作系统中&#xff0c;虚拟地址空间的内部又被分为内核空间和用户空间两部分&#xff0c;不同位数的系统&#xff0c;地址空间的范围也不同。比如最常见的 32 位和 64 位系统&#xff0c;如下所示&#xff1a; 通过这里可以看出&#xff1a; 32 位…

【网络安全 --- MySQL数据库】网络安全MySQL数据库应该掌握的知识,还不收藏开始学习。

四&#xff0c;MySQL 4.1 mysql安装 #centos7默认安装的是MariaDB-5.5.68或者65&#xff0c; #查看版本的指令&#xff1a;[rootweb01 bbs]# rpm -qa| grep mariadb #安装mariadb的最新版&#xff0c;只是更新了软件版本&#xff0c;不会删除之前原有的数据。 #修改yum源的配…

完全掌握Nginx的终极指南:这篇文章让你对Nginx洞悉透彻

Nginx是一款轻量级的Web服务器、反向代理服务器&#xff0c;由于它的内存占用少&#xff08;一个worker进程只占用10-12M内存&#xff09;&#xff0c;启动极快&#xff0c;高并发能力强&#xff0c;在互联网项目中广泛应用。 上图基本上说明了当下流行的技术架构&#xff0c;其…

软考系统架构设计师考试冲刺攻略

系统架构冲刺攻略 上篇为综合知识&#xff0c;介绍了系统架构设计师应熟练掌握的基本知识&#xff0c;主要包括绪论、计算机系统、信息系统、信息安全技术、软件工程、数据库设计、系统架构设计、系统质量属性与架构评估、软件可靠性、软件架构的演化和维护、未来信息综合技术等…

贪心算法:猫粮兑换最大数量的五香豆

小老鼠存了一些猫粮&#xff0c;他想到猫猫库房兑换最大数量的五香豆。 (本笔记适合熟悉循环和列表的 coder 翻阅) 【学习的细节是欢悦的历程】 Python 官网&#xff1a;https://www.python.org/ Free&#xff1a;大咖免费“圣经”教程《 python 完全自学教程》&#xff0c;不…

凉鞋的 Unity 笔记 201. 第三轮循环:引入变量

201. 第三轮循环&#xff1a;引入变量 在这一篇&#xff0c;我们进行第三轮 编辑-测试 循环。 在之前我们编写了 输出 Hello Unity 的脚本&#xff0c;如下: using System.Collections; using System.Collections.Generic; using UnityEngine;public class FirstGameObject …

低代码加速软件开发进程

IT 团队依靠笨重的软件开发流程和密集型的手工编码来构建可靠的现代应用程序的时代即将结束。随着新自动化技术的兴起、开发人员的短缺&#xff0c;以及渴望创新的客户和最终用户的需求迅速提高&#xff0c;软件行业被迫寻求替代方法&#xff0c;要求不仅提供服务和产品&#x…

那些你面试必须知道的JS知识点

目录 1、JS数据类型有哪些&#xff1f;2、延迟加载JS有哪些方式&#xff1f;3、 和 有什么不同&#xff1f;4、null和undefined的区别5、JS微任务和宏任务6、作用域考题7、JS对象考题8、JS作用域this指向原型考题9、JS判断变量是不是数组&#xff0c;你能写出哪些方法&#xff…

四、Node Exporter

一、Exporter结束 可以通过一个 metrics 接口为 Prometheus 提供监控指标&#xff0c;最好的方式就是直接在目标应用中集成该接口&#xff0c;但是有的应用并没有内置支持 metrics 接口&#xff0c;比如 linux 系统、mysql、redis、kafka 等应用&#xff0c;这种情况下就可以单…

数字孪生技术如何提高仓储效率?

随着科技的不断演进&#xff0c;数字孪生技术已然成为仓储管理领域的一股强大力量&#xff0c;带来了前所未有的变化和机遇。数字孪生技术的出现&#xff0c;为仓储行业带来了前所未有的智能化和高效化&#xff0c;从仓库布局到库存管理&#xff0c;从人员配备到安全控制&#…

基于马尔可夫随机场的图像去噪算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1、马尔可夫随机场的基本原理 4.2、基于马尔可夫随机场的图像去噪算法 5.算法完整程序工程 1.算法运行效果图预览 原图&#xff1a; 加入噪声的图像&#xff1a; 滤波后的图像 迭代过程…

人工智能(pytorch)搭建模型20-基于pytorch搭建文本生成视频的生成对抗网络,技术创新点介绍

大家好&#xff0c;我是微学AI&#xff0c;今天给大家介绍一下人工智能(pytorch)搭建模型20-基于pytorch搭建文本生成视频的生成对抗网络&#xff0c;技术创新点介绍&#xff0c;随着人工智能和深度学习技术的飞速发展&#xff0c;文本到视频生成已经成为计算机视觉领域中一个重…

【网络安全】php代码审计-sql注入进阶篇

前言 现在各大网站都在使用waf对网站或者APP的业务流量进行恶意特征识别及防护&#xff0c;&#xff0c;避免网站服务器被恶意入侵。所以我们就需要绕过waf&#xff0c;这篇文章就用代码审计的方式给大家讲解一些sql的绕过技巧。 点击此处即可领取282G网络安全学习籽料 关键…

FlashAttention计算过程梳理

FlashAttention 的速度优化原理是怎样的&#xff1f; 从 FlashAttention 到 PagedAttention, 如何进一步优化 Attention 性能 FlashAttention图解&#xff08;如何加速Attention&#xff09; FlashAttention开源代码 Transformer Block运算量解析 在self-attention模块中&#…

【UE】安装下载的插件文件夹到虚幻引擎

比如我淘宝上购买了一个插件文件夹&#xff0c;解压后内容如下&#xff1a; 找到电脑上虚幻引擎&#xff08;这里以UE5.1为例&#xff09;的位置&#xff0c;可以看到里面有一个名字为“Plugins”的文件夹 在此文件夹中找到“Marketplace”文件夹 然后将下载的插件文件夹放到“…

智慧远程医疗服务:从零开始搭建互联网医院APP

互联网医院APP作为远程医疗服务的一部分&#xff0c;正在为患者和医生带来更便捷的医疗体验。本文将探讨如何从零开始构建一个互联网医院APP&#xff0c;包括关键步骤、技术要点和挑战。 一、确定项目目标和范围 在开始之前&#xff0c;您需要明确定义您的互联网医院APP的目标…