Pandas数据筛选8大核心技巧:从布尔索引到query高效查询

news2026/5/20 18:29:11
1. 项目概述为什么我们需要掌握Pandas数据筛选如果你用Python做数据分析那么Pandas库绝对是你的核心武器库。而在这个武器库里数据筛选——也就是从庞大的数据集中精准地挑出你需要的那些行和列——是每天都要重复无数遍的操作。无论是清洗数据、探索性分析还是构建特征你都得跟各种筛选条件打交道。我见过不少新手拿到一个DataFrame想找某个条件下的数据第一反应就是写个循环去遍历效率低不说代码还冗长难懂。其实Pandas内置了极其强大且灵活的筛选机制用好了能让你的代码既简洁又高效执行速度也快得多。今天我就结合自己多年处理数据的经验为你系统梳理Pandas中筛选数据的8个核心技巧。这不仅仅是罗列函数我会深入每个方法背后的设计逻辑、适用场景以及那些官方文档里不会写的“坑”和实战心得。我们会用到经典的波士顿房价数据集作为例子但请放心这些技巧是通用的适用于你遇到的任何表格数据。无论你是想快速过滤出销售额前10%的门店还是想找出用户行为日志中的异常序列这些方法都能帮你轻松搞定。2. 核心技巧深度解析与实战应用2.1 方括号[]最直接的条件过滤这是Pandas筛选的“入门功夫”也是很多人最早接触的方式。它的本质是布尔索引。当你把一个布尔类型的SeriesTrue/False序列放进DataFrame的方括号里时Pandas会聪明地只返回那些对应位置为True的行。原理与操作import pandas as pd from sklearn.datasets import load_boston # 加载数据 boston load_boston() df pd.DataFrame(boston.data, columnsboston.feature_names) # 基础筛选找出NOX含量高于平均值的数据 high_nox_df df[df[NOX] df[NOX].mean()] print(f原始数据{df.shape}行筛选后{high_nox_df.shape}行)上面这行代码df[NOX] df[NOX].mean()会生成一个与df行数相同的布尔Series。然后df[boolean_series]就完成了筛选。组合条件进阶实际工作中单一条件很少见。我们需要组合多个条件这时就要用到逻辑运算符(与)、|(或)、~(非)。这里有一个至关重要的细节每个条件必须用圆括号()括起来。因为运算符优先级会导致错误。# 筛选NOX高于平均值且CHAS为1临河的数据 complex_filtered_df df[(df[NOX] df[NOX].mean()) (df[CHAS] 1)] # 如果想看NOX高或者RM房间数小于6的数据 either_or_df df[(df[NOX] df[NOX].mean()) | (df[RM] 6)]注意为什么必须加括号在Python中比较运算符如、的优先级高于逻辑运算符、|。不加括号df[NOX] df[NOX].mean() df[CHAS] 1会被解释为df[NOX] (df[NOX].mean() df[CHAS]) 1这显然不是我们想要的并且会引发错误。排序联动筛选后直接排序是常见需求.sort_values()可以链式调用。result df[(df[NOX] df[NOX].mean()) (df[CHAS] 1)].sort_values(byNOX, ascendingFalse)实操心得性能对于大型DataFrame布尔索引的速度非常快因为它是向量化操作。可读性当条件超过3个时代码会变得难以阅读。建议将复杂的条件拆解并赋值给有意义的变量名。is_high_nox df[NOX] df[NOX].mean() is_riverside df[CHAS] 1 is_small_house df[RM] 6 final_condition is_high_nox is_riverside ~is_small_house result df[final_condition]原地修改df df[condition]会创建一个新的DataFrame。如果只想修改原数据需要使用df.drop等方法或者df.loc进行赋值。2.2loc与iloc精准的标签与位置访问器如果说[]是“筛选行”的利器那么loc和iloc就是“行列通吃”的瑞士军刀。它们最大的优势在于可以同时指定行和列。loc基于标签的访问df.loc[行条件, 列条件]。行和列的条件都可以是单个标签、标签列表、切片或布尔序列。# 1. 筛选行并只选择特定的列 df.loc[df[NOX] 0.5, [CRIM, NOX, RM]] # 2. 使用行标签切片 (假设索引是字符串或数字) # 选取索引从10到20的行以及CRIM到DIS的列 df.loc[10:20, CRIM:DIS] # 3. 直接赋值这是loc非常强大的功能 # 将满足条件的行的CHAS列值改为2 df.loc[df[NOX] df[NOX].mean(), CHAS] 2iloc基于整数位置的访问df.iloc[行位置, 列位置]。只接受整数和整数切片。# 选取前5行前3列 df.iloc[:5, :3] # 选取第1, 3, 5行和第0, 2, 4列 df.iloc[[0, 2, 4], [0, 2, 4]]核心区别与选择特性lociloc索引类型标签index/column names整数位置0, 1, 2...切片含义a:b包含两端a:b包含a不包含b常用场景按业务含义筛选如日期、ID按固定位置选取如前N行与[]关系df[condition]等价于df.loc[condition, :]无直接等价避坑指南当你重置索引df.reset_index()或进行了一些行删除操作后整数位置索引会变但标签索引通常更稳定。在涉及顺序的硬编码操作时用iloc在涉及业务逻辑的筛选时用loc。2.3isin锁定特定值域的筛选当你的筛选条件不是范围大于、小于而是一个明确的“候选名单”时isin()方法就是最佳选择。它相当于SQL中的IN语句。基础用法# 筛选NOX值恰好为0.538, 0.713, 0.437的记录 specific_nox_values [0.538, 0.713, 0.437] df_specific df.loc[df[NOX].isin(specific_nox_values), :] # 多列同时isin可以但需要一些技巧 # 筛选CRIM和ZN都在某个列表中的记录需逐列判断 crim_list [0.1, 0.5, 1.0] zn_list [18.0, 0.0] condition df[CRIM].isin(crim_list) df[ZN].isin(zn_list) df_multi_isin df.loc[condition]取反操作使用~运算符可以轻松筛选出“不在名单内”的数据。df_not_in_list df.loc[~df[NOX].isin(specific_nox_values), :]高级应用与性能大数据集优化如果候选列表很大将列表转为集合set再进行isin判断速度会更快因为集合的成员检测是O(1)复杂度。value_set set(specific_nox_values) df_fast df.loc[df[NOX].isin(value_set), :]分类数据筛选对于category类型的数据isin效率极高。与query结合isin也可以在query方法中使用语法更简洁后面会讲。常见问题NaN值处理默认情况下NaN不会被认为在任何一个列表中isin([...])会返回False。如果需要包含NaN需要单独处理。类型一致性确保列表中的值与Series中的数据类型一致。比如如果列是整数型列表里是浮点数1.0可能会匹配失败。2.4str.contains文本数据的模糊匹配利器面对非结构化的文本数据如商品名称、用户评论、地址精确匹配往往不够我们需要模糊查询。Pandas的字符串方法str.contains()就是为此而生类似于SQL的LIKE %pattern%。基础文本筛选假设我们有一个泰坦尼克号数据集train其中包含乘客姓名。# 筛选姓名中包含“Mrs”或“Lily”的乘客 # 注意Mrs|Lily 是一个正则表达式| 表示“或” train.loc[train[Name].str.contains(Mrs|Lily, caseFalse, naFalse), :].head()caseFalse忽略大小写这样“mrs”也能匹配到。naFalse将缺失值NaN视为不匹配返回False。如果不设置遇到NaN会返回NaN导致筛选出错。正则表达式威力str.contains()默认支持正则表达式这打开了无限可能。# 筛选以“C”开头第三个字母是“r”的姓名 train.loc[train[Name].str.contains(^C.r, naFalse), :] # 筛选姓名中包含数字的乘客可能包含舱位号等信息 train.loc[train[Name].str.contains(r\d, naFalse), :]其他有用的字符串方法str.startswith()/str.endswith()匹配开头/结尾。str.match()从字符串开头匹配正则比contains更严格。str.extract()用正则提取特定部分功能强大。重要提醒使用正则表达式时如果模式中包含反斜杠\或特殊字符建议使用原始字符串ryour_pattern来避免转义错误。对于简单的固定字符串匹配可以将regexFalse以提升一点点性能。性能考量在非常大的文本列上使用str.contains进行复杂的正则匹配可能会比较慢。如果模式是固定的字符串优先使用regexFalse。如果可能考虑在数据入库如SQL时进行预处理或者使用更专业的文本处理库。2.5where与mask条件替换的“双生子”where和mask这对方法非常独特。它们不是简单地筛选出数据而是根据条件有选择地保留或替换数据。你可以把它们理解为“向量化的 if-else”。where方法保留满足条件的值df.where(cond, otherNaN)的意思是对于cond为True的位置保留原值对于cond为False的位置替换为other默认为NaN。import numpy as np # 创建一个示例Series s pd.Series([10, 20, 30, 40], index[a, b, c, d]) # 条件大于25 cond s 25 print(s.where(cond)) # 输出a NaN, b NaN, c 30.0, d 40.0 # a和b不满足条件被替换为NaN # 指定替换值 print(s.where(cond, other-1)) # 输出a -1, b -1, c 30, d 40在DataFrame中的应用# 将Sex列中不是‘male’的值替换为‘FEMALE’ cond train[Sex] male train[Sex].where(cond, otherFEMALE, inplaceTrue) # inplace表示原地修改 # 更复杂的例子创建一个新列‘quality’对高质量男性标记其他标记为‘低质量男性’ train[quality] # 先创建列 cond1 train[Sex] male cond2 train[Age] 25 train[quality].where(cond1 cond2, other低质量男性, inplaceTrue) # 结果同时满足cond1和cond2的行quality列为空字符串不满足的被赋值为‘低质量男性’mask方法与where相反df.mask(cond, otherNaN)的意思是对于cond为True的位置替换为other对于cond为False的位置保留原值。它是where的逆操作。# 用mask实现上面where的相反效果 train[quality] train[quality].mask(cond1 cond2, other低质量男性, inplaceTrue) # 结果同时满足cond1和cond2的行quality列被赋值为‘低质量男性’不满足的保持为空字符串。使用场景与心得数据清洗快速将不符合预期的值替换为缺失值或默认值。例如将年龄小于0或大于150的值替换为NaN。条件赋值比使用loc进行多步骤的条件赋值在某些场景下更简洁。避免链式赋值警告在复杂的条件赋值中使用where/mask可以避免 Pandas 的SettingWithCopyWarning。注意where/mask返回的是一个新的对象除非inplaceTrue原数据不会被修改。它们主要用于创建新的、经过条件处理的数据列或Series。2.6query用字符串表达式进行优雅查询query方法允许你使用一个字符串表达式来描述筛选条件。对于熟悉SQL或者喜欢更清晰语法的人来说query非常优雅它能把复杂的布尔逻辑写在一行字符串里。基本语法# 传统方式 vs query方式 # 传统 df_filtered df[(df[Age] 25) (df[Sex] male)] # query df_filtered df.query(Age 25 and Sex male)可以看到query中直接使用列名逻辑运算符用and,or,not更符合自然语言习惯。处理列名中的特殊字符如果列名包含空格或特殊字符可以用反引号包裹。df.query(Customer Age 30 and Order Status Shipped)引用外部变量这是query一个非常强大的功能使用符号可以引用当前作用域中的Python变量。threshold 25 gender male df_filtered df.query(Age threshold and Sex gender)字符串模糊匹配query也可以结合.str访问器。# 筛选名字包含“William”且年龄大于25的 df.query(Name.str.contains(William) and Age 25)query的优势与局限优势局限语法简洁复杂条件更易读。性能对于超大数据集解析字符串表达式可能比直接的布尔索引稍慢。安全避免在表达式中直接使用Python变量名减少错误。灵活性无法完成loc那样同时筛选行和列的操作。与变量结合好语法清晰。依赖列名如果列名是动态生成的使用起来会麻烦。个人建议在交互式数据分析如Jupyter Notebook中query能极大提升代码可读性。但在生产环境的脚本中如果性能至关重要或者筛选逻辑极其复杂传统的布尔索引可能更稳妥。2.7filter按标签名筛选行或列filter是一个容易被忽略但非常实用的方法。它不筛选数据值而是根据行或列的标签名称来筛选。它有点像loc按列筛选的简化版但语法更专注并且支持正则表达式。三种筛选模式items指定确切的列名列表。# 只保留‘Age’和‘Sex’两列 train.filter(items[Age, Sex]).head()like筛选包含特定子字符串的标签。# 筛选列名中包含字母‘S’的列 train.filter(likeS, axis1).head() # axis1 表示列 # 筛选行索引中包含数字‘2’的行 train.filter(like2, axis0).head() # axis0 表示行regex使用正则表达式匹配标签。# 筛选列名以‘S’开头的列 train.filter(regex^S, axis1).head() # 筛选行索引以‘2’开头的行 train.filter(regex^2, axis0).head()链式组合filter可以链式调用实现更精细的筛选。# 先筛选索引以2开头的行再从这些行中筛选列名包含S的列 train.filter(regex^2, axis0).filter(likeS, axis1).head()使用场景快速查看相关列当你有几十上百个列想快速查看所有以“temp_”、“score_”开头的特征时。按模式删除列结合drop方法可以批量删除符合某种模式的列。columns_to_drop train.filter(regex^Unnamed).columns train.drop(columnscolumns_to_drop, inplaceTrue)整理索引如果你的行索引是复杂的ID可以用filter快速筛选出符合特定模式的ID对应的行。注意filter默认操作的是列axis1。如果想对行索引进行操作必须显式指定axis0。它返回的是原始DataFrame的一个视图如果可能效率很高。2.8any与all布尔逻辑的聚合判断any()和all()本身不是筛选函数但它们是构建复杂筛选条件或进行数据质量检查的基石。它们作用于布尔序列Series或布尔DataFrame上进行聚合判断。基本概念any()序列中至少有一个True则返回True。all()序列中所有值都是True才返回True。单列判断# 检查‘Cabin’列是否至少有一个非空值非NaN/None has_cabin train[Cabin].notna().any() # 返回True # 检查‘Cabin’列是否全部非空 all_have_cabin train[Cabin].notna().all() # 返回False多列/全表判断结合axis参数axis参数决定了聚合的方向。axis0或axisindex按列聚合。对每一列进行判断返回一个每列结果的Series。axis1或axiscolumns按行聚合。对每一行进行判断返回一个每行结果的Series。经典应用查找缺失值# 1. 检查每一列是否存在缺失值 print(train.isnull().any(axis0)) # 输出一个Series列名为索引True/False为值True表示该列至少有一个NaN。 # 2. 检查存在缺失值的列名 cols_with_missing train.columns[train.isnull().any(axis0)].tolist() print(f包含缺失值的列有{cols_with_missing}) # 3. 检查每一行是否存在缺失值 rows_with_missing train.isnull().any(axis1) print(f共有{rows_with_missing.sum()}行包含缺失值) # 4. 筛选出没有任何缺失值的“干净”行 clean_rows train[~rows_with_missing] # 使用布尔索引构建复杂筛选条件# 筛选出“年龄30”或“票价100”或“舱位为1等”中至少满足一项的乘客 condition_any (train[Age] 30) | (train[Fare] 100) | (train[Pclass] 1) # 这个condition_any本身就是一个布尔Series可以直接用于筛选 df_any_condition train[condition_any] # 筛选出同时满足“性别为女”、“存活”、“舱位为1等”所有条件的乘客 condition_all (train[Sex] female) (train[Survived] 1) (train[Pclass] 1) df_all_condition train[condition_all]性能提示any()/all()是短路求值的一旦满足条件就会停止计算在大型布尔数组中效率很高。它们是进行数据质量概览和构建高层筛选逻辑的必备工具。3. 综合实战一个完整的数据筛选流程让我们把这些技巧串联起来模拟一个真实的数据分析场景分析波士顿房价数据中犯罪率低、房间数适中且离就业中心近的优质房产。import pandas as pd from sklearn.datasets import load_boston import numpy as np # 1. 加载与初探 boston load_boston() df pd.DataFrame(boston.data, columnsboston.feature_names) print(数据形状:, df.shape) print(\n前几行数据:) print(df.head()) # 2. 定义筛选条件使用变量增强可读性 # 条件1: 犯罪率(CRIM)低于平均值治安较好 low_crime df[CRIM] df[CRIM].mean() # 条件2: 房间数(RM)在4到7之间户型适中 moderate_rooms df[RM].between(4, 7) # between是 inclusive 的 # 条件3: 到就业中心的加权距离(DIS)小于3通勤方便 close_to_job df[DIS] 3 # 条件4: 一氧化氮浓度(NOX)不能是异常高值排除严重污染区 not_high_pollution ~df[NOX].isin([0.7, 0.8, 0.9]) # 假设这些是异常高值 # 3. 组合条件必须同时满足以上所有条件 prime_area_condition low_crime moderate_rooms close_to_job not_high_pollution # 4. 应用筛选并只关心部分核心指标 prime_properties df.loc[prime_area_condition, [CRIM, RM, DIS, NOX, MEDV]] # 假设MEDV是房价 # 5. 按房价中位数排序看看最贵的优质房产 prime_properties_sorted prime_properties.sort_values(byMEDV, ascendingFalse) print(f\n筛选出的优质房产共有 {prime_properties_sorted.shape[0]} 处) print(\n房价最高的5处优质房产:) print(prime_properties_sorted.head()) # 6. (可选) 使用query语法重写对比可读性 # 注意query中不能直接使用.mean()等函数结果需要提前计算 crime_mean df[CRIM].mean() prime_properties_query df.query(CRIM crime_mean and RM 4 and RM 7 and DIS 3 and NOX not in [0.7, 0.8, 0.9])[[CRIM, RM, DIS, NOX, MEDV]]这个流程展示了如何将多个技巧结合用布尔索引构建条件、用loc筛选行列、用isin排除特定值、用sort_values排序最后还用query提供了另一种写法。4. 性能优化与避坑指南掌握了技巧还要懂得如何用得高效、不出错。下面是一些关键的实战经验。4.1 性能优化策略向量化操作优先始终使用Pandas内置的向量化函数如,,isin,str.contains绝对避免在DataFrame上使用Python的for循环。合理使用索引如果经常按某列筛选考虑将其设为索引df.set_index(column_name)然后使用df.loc[index_value]速度会快很多。评估筛选顺序如果多个条件筛选率差异大将筛选掉最多数据的条件放在前面可以减少后续操作的数据量。适时使用query对于复杂表达式query引擎有时会进行内部优化。但在简单条件下布尔索引通常更快。注意数据类型对数值列进行筛选比对象字符串列快。确保数值列是int或float类型而非object。大数据集分块对于内存无法容纳的超大数据考虑使用pd.read_csv(chunksize...)分块读取和处理。4.2 常见“坑”与解决方案问题现象/报错原因与解决方案SettingWithCopyWarning尝试修改切片后的数据时出现警告。Pandas不确定你操作的是视图还是副本。使用.loc或.iloc进行明确赋值或者使用.copy()创建副本。布尔条件组合出错ValueError: The truth value of a Series is ambiguous...忘记用括号()包裹单个条件。必须写成(df.A 1) (df.B 2)。NaN值处理不当筛选后意外包含或丢失了NaN行。记住NaN与任何值比较包括NaN本身都返回False。使用df[col].isna()或df[col].notna()专门处理缺失值。字符串大小写问题筛选Male但漏掉了male。在str.contains()中设置caseFalse或先用df[col].str.lower()统一转为小写。inplaceTrue的副作用操作后原数据被修改无法回溯。调试阶段慎用inplaceTrue。可以先在新变量上操作确认无误后再决定是否覆盖原数据。query中使用未定义变量NameError: name var is not defined在query字符串中引用外部变量必须加符号query(col var)。4.3 调试技巧分步验证将复杂的组合条件拆解每一步都打印出condition.sum()看看筛选出了多少行确保逻辑符合预期。善用.sample()筛选出数据后用df_filtered.sample(5)随机查看几行直观感受筛选结果。检查数据类型使用df.dtypes确保参与比较的列数据类型一致特别是数值和字符串的混淆。处理边缘情况思考你的条件在数据边界如最大值、最小值、NaN上是否表现正确。5. 总结与个人工具箱推荐经过上面这一轮梳理你会发现Pandas的数据筛选远不止简单的df[df[col] 5]。每种方法都有其最适合的战场快速简单过滤用方括号[]布尔索引。行列同时操作或赋值用loc/iloc。精确值匹配用isin。文本模糊搜索用str.contains。条件替换用where/mask。追求语法简洁用query。按名称筛选行列用filter。进行布尔逻辑聚合用any/all。在实际项目中我通常会混合使用它们。我的个人习惯是在探索性数据分析EDA时多用query和交互式筛选让思路更流畅在编写生产数据管道时则倾向于使用更显式、性能更可预测的布尔索引和loc。最后再分享一个我自己的小技巧对于极其复杂、多层嵌套的筛选逻辑我有时会放弃一行写完的“炫技”转而使用函数式编程的思路。例如定义一个返回布尔Series的函数每个函数代表一个小的业务规则然后用reduce函数或简单的循环将它们组合起来。这样代码的模块化和可测试性会好很多。数据筛选是数据分析的基本功把这些技巧内化能让你从“怎么写代码”的纠结中解放出来更专注于“解决什么业务问题”。希望这篇长文能成为你手边常备的参考。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2629024.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…