快速选择算法:优化大数据中的 Top-K 问题

news2025/5/17 5:57:50

在处理海量数据时,经常会遇到这样的需求:找出数据中最大的前 K 个数,而不必对整个数据集进行排序。这种场景下,快速选择算法(Quickselect)就成了一个非常高效的解决方案。本文将通过一个 C++ 实现的快速选择算法来详细讲解其原理和应用。

快速选择算法原理

快速选择算法是由 Tony Hoare 在 1961 年提出的,它基于快速排序(Quicksort)的思想。与快速排序不同的是,快速选择只需要处理包含目标元素的那一部分子数组,因此其平均时间复杂度为 O (n),优于排序算法的 O (n log n)。

快速选择的核心思想是利用快速排序中的分区(partition)过程:选择一个基准元素(pivot),将数组分为两部分,使得左边部分的所有元素都大于等于基准元素,右边部分的所有元素都小于基准元素。然后根据基准元素的位置与 K 的关系,决定是继续在左半部分还是右半部分查找。

代码实现与解析

下面是一个使用快速选择算法查找前 K 大元素的 C++ 实现:

#include<iostream>
#include<algorithm>
#include<vector>
#include<time.h>
using namespace std;

// 快速选择函数:查找数组中前top大的元素
template<class T>
void find(vector<T>& q, int top, int l, int r) {
    if (l >= r) return;
    
    // 选择中间元素作为基准
    int mid = (l + r) / 2;
    T val = q[mid];
    
    // 初始化左右指针
    int i = l;
    int j = r;
    
    // 分区过程
    while (i < j) {
        // 从左向右找到第一个小于等于基准的元素
        while (q[i] > val && i < j) i++;
        // 从右向左找到第一个大于等于基准的元素
        while (q[j] < val && i < j) j--;
        // 交换这两个元素
        if (i < j) swap(q[i], q[j]);
        else break;
    }
    
    // 根据分区结果递归处理
    if (j - l + 1 > top) {
        // 左半部分元素数量大于top,在前半部分继续查找
        find(q, top, l, i);
    } else {
        // 否则在后半部分查找剩余的元素
        find(q, top - (j - l + 1), i + 1, r);
    }
}

int main() {
    vector<double> q;
    vector<double> q1;  // 存储快速选择结果
    vector<double> q3;  // 存储排序结果用于对比
    
    // 生成测试数据
    srand(time(NULL));
    for (int i = 0; i < 1000; i++) {
        q.push_back(rand() % 10000 + i * 1.0 / 100);
    }
    
    q3 = q;
    
    // 使用快速选择算法查找前10大的元素
    find(q, 10, 0, 999);
    
    // 将结果存入q1
    for (int i = 0; i < 10; i++) q1.push_back(q[i]);
    
    // 对原数组进行降序排序
    sort(q3.rbegin(), q3.rend());
    // 对快速选择的结果进行降序排序
    sort(q1.rbegin(), q1.rend());
    
    // 输出结果
    cout << "快速选择结果:";
    for (auto i : q1) cout << i << ' ';
    cout << endl;
    
    cout << "完整排序结果:";
    for (auto i : q3) cout << i << ' ';
}
代码工作流程分析
  1. 分区过程

    • 选择中间元素作为基准(pivot)
    • 使用双指针法将数组分为两部分:左边部分大于等于基准,右边部分小于基准
    • 通过交换元素实现分区
  2. 递归策略

    • 计算左半部分的元素数量
    • 如果左半部分元素数量大于 K,则在前半部分继续查找
    • 否则在后半部分查找剩余的 K-(左半部分数量) 个元素
  3. 主函数测试

    • 生成 1000 个随机数作为测试数据
    • 分别使用快速选择和完整排序两种方法
    • 比较两种方法得到的前 10 大元素
快速选择的性能优势

快速选择算法之所以高效,是因为它每次只处理目标元素所在的那一部分子数组。在平均情况下,其时间复杂度为 O (n),而空间复杂度为 O (1)(不考虑递归栈空间)。

相比之下,完整排序算法(如快速排序、归并排序)的时间复杂度为 O (n log n),这意味着在处理大规模数据时,快速选择算法的性能优势会更加明显。

应用场景

快速选择算法在实际应用中非常广泛,特别是在需要从大量数据中找出 Top-K 元素的场景:

  • 搜索引擎中的热门搜索词统计
  • 推荐系统中的 Top-N 推荐项
  • 游戏中的排行榜系统
  • 数据挖掘中的异常检测

通过快速选择算法,我们可以在不排序整个数据集的情况下,高效地找到所需的 Top-K 元素,大大提高了处理大规模数据的效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2377387.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用Mathematica制作Lorenz吸引子的轨道追踪视频

Lorenz奇异吸引子是混沌理论中最早被发现和研究的吸引子之一&#xff0c;它由Edward Lorenz在1963年研究确定性非周期流时提出。Lorenz吸引子以其独特的"蝴蝶"形状而闻名&#xff0c;是混沌系统和非线性动力学的经典例子。 L NDSolveValue[{x[t] -3 (x[t] - y[t]),…

简单图像自适应亮度对比度调整

一、背景介绍 继续在刷对比度调整相关算法&#xff0c;偶然间发现了这个简单的亮度/对比度自适应调整算法&#xff0c;做个简单笔记记录。也许后面用得到。 二、自适应亮度调整 1、基本原理 方法来自论文:Adaptive Local Tone Mapping Based on Retinex for High Dynamic Ran…

深入理解二叉树:遍历、存储与算法实现

在之前的博客系列中&#xff0c;我们系统地探讨了多种线性表数据结构&#xff0c;包括顺序表、栈和队列等经典结构&#xff0c;并通过代码实现了它们的核心功能。从今天开始&#xff0c;我们将开启一个全新的数据结构篇章——树结构。与之前讨论的线性结构不同&#xff0c;树形…

【Win32 API】 lstrcmpA()

作用 比较两个字符字符串&#xff08;比较区分大小写&#xff09;。 lstrcmp 函数通过从第一个字符开始检查&#xff0c;若相等&#xff0c;则检查下一个&#xff0c;直到找到不相等或到达字符串的末尾。 函数 int lstrcmpA(LPCSTR lpString1, LPCSTR lpString2); 参数 lpStr…

(C语言)超市管理系统 (正式版)(指针)(数据结构)(清屏操作)(文件读写)

目录 前言&#xff1a; 源代码&#xff1a; product.h product.c fileio.h fileio.c main.c 代码解析&#xff1a; 一、程序结构概述 二、product.c 函数详解 1. 初始化商品列表 Init_products 2. 添加商品 add_product 3. 显示商品 display_products 4. 修改商品 mo…

NAT转换和ICMP

NAT nat原理示意 nat实现 ICMP ICMP支持主机或路由器&#xff1a; 差错或异常报告网络探寻 2类icmp报文&#xff1a; 差错报告报文&#xff08;5种&#xff09; 目的不可达源抑制--拥塞控制超时&超期--TTL超时参数问题--问题报文丢弃重定向--不应该由这个路由器转发&a…

【专利信息服务平台-注册/登录安全分析报告】

前言 由于网站注册入口容易被黑客攻击&#xff0c;存在如下安全问题&#xff1a; 暴力破解密码&#xff0c;造成用户信息泄露短信盗刷的安全问题&#xff0c;影响业务及导致用户投诉带来经济损失&#xff0c;尤其是后付费客户&#xff0c;风险巨大&#xff0c;造成亏损无底洞…

BUUCTF——web刷题第一页题解

共31题&#xff0c;admin那题没有&#xff0c;因为环境问题&#xff0c;我做的非常卡 目录 极客大挑战 2019]Havefun [HCTF 2018]WarmU [ACTF2020 新生赛]Include [ACTF2020 新生赛]Exec [GXYCTF2019]Ping Ping Ping [SUCTF 2019]EasySQL [极客大挑战 2019]LoveSQL [极…

哪个品牌的智能对讲机好用?推荐1款,能扛事更智能

在专业通信领域&#xff0c;智能对讲机早已突破传统设备的局限&#xff0c;成为集通信、调度、数据传输于一体的智能化终端。面对复杂多变的作业环境&#xff0c;用户对设备的稳定性、通信效率和智能化水平提出了更高要求。但是&#xff0c;市面上产品同质化严重&#xff0c;部…

【Win32 API】 lstrcpyA()

作用 将字符串复制到指定的字符串缓冲区。 函数 LPSTR lstrcpyA(LPSTR lpString1, LPCSTR lpString2); 参数 lpString1 类型&#xff1a;LPTSTR 一个缓冲区&#xff0c;用于接收由 lpString2 参数指向的字符串的内容。 缓冲区必须足够大才能包含字符串&#xff0c;包括终止…

Vue3——Watch侦听器

目录 手动指定监听对象 侦听ref对象 侦听ref对象中的某个属性 reactive写法 watchEffect 自动侦听 多源侦听 一次性侦听器 watch 是⼀个⽤于观察和响应Vue响应式系统中数据变化的⽅法。它允许你指定⼀个数据源&#xff08;可以是 响应式引⽤、计算属性、组件的属性等&#xf…

Go的单测gomock及覆盖率命令

安装gomock&#xff1a; go get github.com/golang/mock/gomockgo get github.com/golang/mock/mockgen 使用 mockgen 生成 mock 代码: 参考 mockgen -sourceservice/user.go -destinationservice/mocks/mock_user_service.go -packagemocks go test -coverprofilecoverage.out…

Leetcode209做题笔记

力扣209 题目分析&#xff1a;想象一个窗口遍历着这个数组&#xff0c;不断扩大右边界&#xff0c;让r。往窗口中添加数字&#xff1a; 此时我们找到了这个窗口&#xff0c;它的和满足了大于等于target的条件&#xff0c;题目让我求最短的&#xff0c;那么我们就尝试来缩短它&…

Suna: 开源多面手 AI 代理

GitHub&#xff1a;GitHub - kortix-ai/suna: Suna - Open Source Generalist AI Agent 更多AI开源软件&#xff1a;发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI Suna 是一个完全开源的 AI 助手&#xff0c;可帮助您轻松完成实际任务。通过自然对话&#xff0c…

25-05-16计算机网络学习笔记Day1

深入剖析计算机网络&#xff1a;今日学习笔记总结 本系列博客源自作者在大二期末复习计算机网络时所记录笔记&#xff0c;看的视频资料是B站湖科大教书匠的计算机网络微课堂&#xff0c;每篇博客结尾附书写笔记(字丑见谅哈哈) 视频链接地址 一、计算机网络基础概念 &#xf…

12 web 自动化之基于关键字+数据驱动-反射自动化框架搭建

文章目录 一、如何实现一条用例&#xff0c;实现覆盖所有用例的测试1、结合数据驱动&#xff1a;编辑一条用例&#xff0c;外部导入数据实现循环测试2、用例体&#xff1a;实现不同用例的操作步骤对应的断言 二、实战1、项目路径总览2、common 文件夹下的代码文件3、keywords 文…

动态IP赋能业务增效:技术解构与实战应用指南

在数字化转型加速的今天&#xff0c;IP地址作为网络通信的基础设施&#xff0c;其技术特性正深刻影响着企业业务架构的效率与安全性。动态IP&#xff08;Dynamic IP&#xff09;作为互联网资源分配的核心机制&#xff0c;早已突破传统认知中的"临时地址"定位&#xf…

【Java ee初阶】http(1)

HTTP 全称为“超文本传输协议”&#xff0c;由名字可知&#xff0c;这是一个基于文本格式的协议&#xff0c;而TCP&#xff0c;UDP&#xff0c;以太网&#xff0c;IP...都是基于二进制格式的协议。 如何区别该协议是基于哪种格式的协议&#xff1f; 形如这种协议格式&#xf…

day18-数据结构引言

一、 概述 数据结构&#xff1a;相互之间存在一种或多种特定关系的数据元素的集合。 1.1 特定关系&#xff1a; 1. 逻辑结构 2.物理结构&#xff08;在内存当中的存储关系&#xff09; 逻辑结构物理结构集合&#xff0c;所有数据在同一个集合中&#xff0c;关系平等顺…

我开源了一个免费在线工具!UIED Tools

UIED Tools - 免费在线工具集合 最近更新&#xff1a;修改了文档说明&#xff0c;优化了项目结构介绍 这是设计师转开发的第一个开源项目&#xff0c;bug和代码规范可能有些欠缺。 这是一个功能丰富的免费在线工具集合网站&#xff0c;集成了多种实用工具&#xff0c;包括 AI …