C语言实战:变位词统计的高效算法与函数设计

news2026/3/13 23:56:57
1. 从一道OJ题说起变位词统计的“暴力”解法与性能陷阱很多C语言初学者包括当年刚接触编程的我在拿到类似NWAFU-OJ上这道“变位词统计”的题目时第一反应往往是“这不难”。题目要求很明确给你一个文本字符串和一个单词统计文本中所有与该单词互为变位词的子串出现的次数。变位词说白了就是字母组成完全一样只是排列顺序不同比如“for”和“rof”、“ofr”。题目甚至贴心地给出了函数原型和实现思路提示逐个提取与单词等长的子串然后判断是否为变位词。顺着这个思路我们很容易写出第一版“能跑”的代码。核心逻辑大概是这样用两个指针遍历文本内层循环截取一个长度等于单词的子串然后调用一个areAnagrams函数来判断。这个判断函数怎么实现呢最直观的想法可能是排序把两个字符串的字母都排个序然后比较排序后的结果是否一致。但C语言里给字符串排序有点麻烦另一种常见思路是“标记法”遍历单词的每个字符去子串里找有没有相同的找到就标记一下比如置为一个特殊字符如果单词里所有字符都能在子串里找到对应且子串没有多余字符那就是变位词。我最初提交的版本用的就是类似原始参考代码里的方法。那段代码的areAnagrams函数实现其实就隐藏着几个性能陷阱。它先计算两个字符串的长度然后为子串分配一块临时内存做拷贝接着用了一个双重循环去“匹配”字符匹配成功就把临时串里的字符标记为\t制表符最后检查是否所有字符都被标记了。这个方法在逻辑上是对的但效率上问题很大。首先它每次判断都要malloc和free动态内存分配在频繁调用时开销巨大。其次那个双重循环的时间复杂度是O(n²)如果单词长度是m文本长度是n那么整个算法最坏情况下的时间复杂度会接近O(n * m²)当字符串长度接近题目上限255时这个计算量已经不小了。更关键的是这种“暴力比对”的思路没有利用变位词的核心特征字母频率分布相同。我们只是在做字符的“存在性”检查而且实现上还引入了不必要的内存操作。在实际运行中这种代码可能能通过OJ的简单测试用例但一旦数据量稍大或者放到对性能有要求的工程环境里就会立刻成为瓶颈。我记得当时在本地测试一个长文本能明显感觉到程序有卡顿。这促使我去思考有没有更聪明、更“C语言”的方式来解决这个问题2. 算法升级滑动窗口与哈希映射效率提升的关键想要优化我们必须跳出“逐个子串暴力判断”的思维定式。这里引入两个非常经典且实用的算法思想滑动窗口和基于数组的哈希映射频次统计。它们俩组合起来能把这个问题的时间复杂度从O(n*m²)量级降到O(n)实现质的飞跃。我们先理解一下“滑动窗口”。想象一下你有一个长度固定的框长度等于单词长度这个框从文本字符串的最左边开始框住第一个子串。判断完后这个框不是跳回到开头重新来而是向右滑动一格框住下一个子串。这样我们就能高效、无遗漏地遍历所有可能的子串。这个“框”就是我们的滑动窗口。那么如何快速判断窗口内的子串是否是单词的变位词呢这就是哈希映射出场的时候了。既然变位词的本质是字母频率相同我们就不比较字符串本身而是比较它们的字母频率表。在C语言里实现一个简单的频率表极其方便因为字母只有26个不区分大小写我们完全可以声明一个长度为26的整型数组每个位置对应一个字母例如count[0]对应acount[25]对应z。遍历单词把每个字母出现的次数填到这个数组里这就是我们的“目标频率表”。接下来是精妙之处。当滑动窗口在文本上移动时我们不需要为每个新窗口都重新统计其中所有字母的频率。因为窗口每次只滑动一位窗口内容的变化仅仅是去掉最左边的一个字符加入最右边的一个新字符。因此我们只需要维护一个“当前窗口频率表”在滑动时对离开窗口的字符在频率表里减1对新进入窗口的字符加1即可。这个操作是O(1)的然后判断当前窗口是否为变位词就简化成了比较两个长度26的整数数组是否完全相等。在C语言里我们可以用标准库函数memcmp来一次性比较两个内存块这也是O(1)的操作因为长度固定为26。这样一来处理一个长度为n的文本我们只需要初始化目标频率表O(m)。初始化第一个窗口的频率表O(m)。进行(n-m)次滑动每次滑动进行两次O(1)的更新和一次O(1)的比较。总的时间复杂度是O(n m)几乎是线性的比暴力法快了不止一个数量级。这种算法通常被称为“固定长度滑动窗口频次数组”方法是处理子串、变位词类问题的黄金法则。3. 核心函数设计areAnagrams与countAnagrams的工程化实现理解了高效算法我们来动手设计并实现题目要求的两个核心函数。我们的目标不仅是让它们跑得快还要让代码清晰、健壮、易于维护。3.1areAnagrams变位词判断的三种姿势首先来看areAnagrams函数。根据不同的场景和需求我们可以有多种实现。这里我对比三种常见的写法你可以根据实际情况选择。方法一排序比较法这是最直观的方法。思路是将两个字符串的字符分别排序然后比较排序后的字符串是否相同。#include stdlib.h #include string.h int compare_char(const void* a, const void* b) { return (*(char*)a - *(char*)b); } int areAnagrams_sort(const char* word1, const char* word2) { int len1 strlen(word1); int len2 strlen(word2); if (len1 ! len2) return 0; // 注意为了不修改原字符串需要创建副本 char* copy1 (char*)malloc(len1 1); char* copy2 (char*)malloc(len2 1); if (!copy1 || !copy2) { free(copy1); free(copy2); return 0; } strcpy(copy1, word1); strcpy(copy2, word2); // 转换为小写如果要求不区分大小写 for (int i 0; i len1; i) { if (copy1[i] A copy1[i] Z) copy1[i] 32; if (copy2[i] A copy2[i] Z) copy2[i] 32; } qsort(copy1, len1, sizeof(char), compare_char); qsort(copy2, len2, sizeof(char), compare_char); int result (strcmp(copy1, copy2) 0); free(copy1); free(copy2); return result; }优点逻辑非常清晰容易理解和实现。缺点需要动态分配内存且排序的时间复杂度是O(m log m)其中m是字符串长度。在频繁调用的场景下开销较大。方法二频次数组法推荐这就是我们前面提到的高效方法的核心。直接统计字母出现的频率。#include string.h #include ctype.h // 为了使用tolower函数 int areAnagrams_freq(const char* word1, const char* word2) { int len1 strlen(word1); int len2 strlen(word2); if (len1 ! len2) return 0; int freq[26] {0}; // 初始化所有字母计数为0 // 统计word1的字母增加频次 for (int i 0; i len1; i) { char c tolower(word1[i]); // 不区分大小写 if (c a c z) { freq[c - a]; } // 如果题目保证只有字母可以省略if判断 } // 统计word2的字母减少频次 for (int i 0; i len2; i) { char c tolower(word2[i]); if (c a c z) { freq[c - a]--; } } // 检查频次数组是否全部归零 for (int i 0; i 26; i) { if (freq[i] ! 0) { return 0; // 有任何字母频次不匹配就不是变位词 } } return 1; }优点效率极高时间复杂度O(m)空间复杂度O(1)固定26大小的数组。无需动态内存分配代码简洁。缺点仅适用于纯字母或有限字符集的场景。如果字符集很大比如Unicode这个方法需要很大的数组就不太适用了。方法三素数乘积法一种巧妙的哈希思想这是一种非常有趣的数学方法。为26个字母分别分配一个素数如a2, b3, c5, d7...。计算一个字符串所有字母对应素数的乘积。如果两个字符串是变位词那么它们的素数乘积一定相等反之如果乘积相等则极大概率是变位词在整数不溢出的情况下可以认为是确定的。#include ctype.h #include string.h // 前26个素数对应a-z const int prime_map[26] {2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47, 53, 59, 61, 67, 71, 73, 79, 83, 89, 97, 101}; int areAnagrams_prime(const char* word1, const char* word2) { int len1 strlen(word1); int len2 strlen(word2); if (len1 ! len2) return 0; unsigned long long product1 1, product2 1; // 使用大整数防止溢出 for (int i 0; i len1; i) { char c tolower(word1[i]); if (c a c z) { product1 * prime_map[c - a]; } c tolower(word2[i]); if (c a c z) { product2 * prime_map[c - a]; } } return product1 product2; }优点思路巧妙比较速度很快一次整数比较。缺点乘积极易溢出即使使用unsigned long long单词长度稍大就可能溢出导致错误结果。因此在实际工程中不推荐使用但作为一种算法思维拓展很有趣。对于我们的变位词统计任务频次数组法是最佳选择。它完美契合了滑动窗口算法中需要快速比较频率表的需求。3.2countAnagrams集成滑动窗口的高效统计有了高效的areAnagrams这里我们采用频次数组比较的逻辑但会将其融入滑动窗口不单独作为一个函数被频繁调用我们就可以实现核心的统计函数countAnagrams了。下面的实现直接集成了滑动窗口和频次数组比较是最高效的版本。#include string.h #include ctype.h int countAnagrams(const char* text, const char* word) { int text_len strlen(text); int word_len strlen(word); // 边界情况处理 if (text_len word_len || word_len 0) { return 0; } int target_freq[26] {0}; // 目标单词的频率表 int window_freq[26] {0}; // 当前滑动窗口的频率表 int count 0; // 1. 初始化目标单词的频率表 for (int i 0; i word_len; i) { char c tolower(word[i]); target_freq[c - a]; } // 2. 初始化第一个滑动窗口的频率表 for (int i 0; i word_len; i) { char c tolower(text[i]); window_freq[c - a]; } // 3. 检查第一个窗口 if (memcmp(target_freq, window_freq, sizeof(int) * 26) 0) { count; } // 4. 开始滑动窗口 for (int i word_len; i text_len; i) { // 移除窗口最左边的字符 char left_char tolower(text[i - word_len]); window_freq[left_char - a]--; // 加入窗口最右边的新字符 char right_char tolower(text[i]); window_freq[right_char - a]; // 比较当前窗口频率表与目标频率表 if (memcmp(target_freq, window_freq, sizeof(int) * 26) 0) { count; } } return count; }这个函数的设计有几个工程上的亮点健壮性开头就处理了文本长度小于单词长度、单词为空等边界情况避免后续操作出现错误。效率全程只遍历文本常数次一次初始化窗口一次滑动没有嵌套循环没有动态内存分配。清晰度逻辑步骤分明初始化目标表、初始化窗口、滑动并更新、比较注释清晰易于他人阅读和维护。可复用性虽然这里把频次比较写在了主循环里但target_freq和window_freq的维护逻辑是独立的很容易抽取出更通用的“滑动窗口频次统计”模块。4. 辅助函数与边界处理让代码更稳健一个完整的工程化解决方案除了核心算法还必须考虑辅助功能和边界情况。题目中给出了lowcase函数我们也需要实现它并且要思考更多原始代码可能忽略的问题。lowcase函数的实现与陷阱题目要求不区分大小写所以我们需要一个将字符串统一转为小写的函数。原始代码的lowcase是原地修改的这符合题目“辅助函数”的定位。但这里有个细节需要注意C语言中字符编码是ASCII时大写转小写用32没问题但为了代码的可移植性和清晰性更推荐使用C标准库ctype.h中的tolower函数它会处理本地化设置。#include ctype.h void lowcase(char *s) { if (s NULL) return; // 增加空指针检查更安全 while (*s) { *s tolower((unsigned char)*s); // 使用tolower并转换为unsigned char避免符号扩展问题 s; } }这个小改动让代码更标准也避免了直接进行ASCII算术运算可能带来的隐含假设。输入处理与内存安全原始代码框架使用了read_line函数来读取输入。在实际项目中处理用户输入必须格外小心。read_line函数需要防止缓冲区溢出。原始代码的写法是安全的因为它限制了读取的字符数n。但我们可以做得更好比如考虑回车符\rWindows环境和EOF的情况并确保字符串正确终止。int read_line(char* str, int n) { int ch, i 0; // 循环读取直到遇到换行符、回车符或文件结束符 while ((ch getchar()) ! \n ch ! \r ch ! EOF) { if (i n - 1) { // 预留一个位置给结尾的\0 str[i] (char)ch; } // 如果输入超过n-1可以选择丢弃后续字符或者报错。这里选择静默丢弃。 } str[i] \0; // 确保字符串以空字符结尾 return i; // 返回实际读取的字符数不包括结尾的\0 }注意if (i n - 1)这个条件它确保了数组不会越界并且为终止符留出了空间。这是防御性编程的基本功。更全面的边界情况考虑在countAnagrams函数中我们只处理了长度边界。但在真实场景中还需要考虑空指针如果传入的text或word指针是NULL怎么办函数应该返回0还是进行错误处理通常在接口设计时可以添加assert断言在调试阶段捕获错误或者返回一个错误码如-1。非字母字符题目假设是字母但如果文本包含数字或标点呢我们的频次数组法只处理了a-z非字母字符在tolower后可能不在这个范围c - a会导致数组下标越界。因此在更新频率表前必须检查字符是否为字母。上面的代码中使用了if (c a c z)的判断这是安全的。性能与可测试性可以将频率表的大小26定义为一个宏如#define ALPHABET_SIZE 26这样如果以后要支持更大的字符集比如大小写敏感52个字母修改起来非常方便。同时为关键函数编写单元测试验证各种边界输入下的正确性。把这些细节都处理好你的代码就从“学生作业”级别提升到了“工业级”的稳健程度。这些习惯在未来的项目开发中会让你受益匪浅。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2409254.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…