自然语言处理的实战项目:从0到1搭建属于自己的文本分类系统

news2026/5/25 16:17:32
对于软件测试从业者而言日常工作中我们每天都会接触大量的文本数据缺陷管理系统中的bug描述、测试用例的步骤说明、用户反馈的问题报告、需求文档的规格描述甚至是接口返回的异常信息文本。这些非结构化文本往往隐含着关键业务信息但依靠人工分类整理不仅效率低下还容易出现分类偏差影响测试分析的准确性。如果我们能搭建一套属于自己的文本分类系统就可以自动实现缺陷标签归类、测试用例分层、用户问题聚类等工作大幅提升测试效率还能为测试质量分析、风险预判提供数据支撑。本文就将以软件测试场景为核心带领大家从0到1完成一个可用的文本分类系统搭建。一、项目目标与场景定义贴合测试工作的实际需求在开始搭建之前我们首先要明确适配测试场景的项目目标避免做无意义的通用化开发。对于测试从业者来说我们不需要追求学术界最顶尖的分类精度而是要打造一个轻量、易用、可快速迭代能解决实际测试痛点的系统。结合测试工作的常见场景我们可以将初始目标设定为针对缺陷管理系统中的bug描述自动将其分类为「界面异常」「功能缺陷」「性能问题」「兼容性问题」「安全漏洞」五个类别替代人工打标签的工作后续可扩展到测试用例分类、需求文档合规性检测等场景。明确目标后第一步就是数据准备这也是文本分类项目的核心基础。对于测试场景来说我们本身就拥有天然的标注数据源公司缺陷系统中已经人工标注过的历史bug。我们可以通过API导出或者爬虫爬取的方式获取至少1000条已经标注好分类的bug数据每条数据包含bug标题、详细描述两个文本字段以及对应的分类标签。这里需要注意数据清洗环节这和我们测试中做前置检查的思路是一致的要去掉重复的bug、去掉空文本、去掉标注错误的脏数据还要统一文本格式——比如把不同工程师写的“UI”“界面”“页面”这类同义词统一归一化把bug描述中的版本号、时间戳这类无意义动态字符替换成固定占位符。数据清洗完成后按照8:1:1的比例划分为训练集、验证集和测试集这个比例是兼顾小样本场景的最优划分。二、技术选型适合测试从业者的轻量化方案很多测试朋友会担心自己不是专业NLP算法工程师能不能搞定这个项目其实完全不需要焦虑当前开源社区已经有非常成熟的工具链我们不需要从零训练大模型选择轻量化方案就能满足测试场景的需求。对于测试从业者来说技术选型遵循三个原则低门槛、易部署、可调试因此我们可以选择“Python Scikit-learn 预训练词向量 轻量分类模型”的技术栈后续如果想要效果升级也可以快速切换到开源小模型比如BERT-base不需要重构整个架构。具体来说环境搭建非常简单只需要通过pip安装几个核心库numpy用于数值计算pandas用于数据处理scikit-learn提供特征提取和分类算法jieba用于中文分词joblib用于模型保存和部署。整个环境搭建不需要特殊的GPU资源普通的开发笔记本就能流畅运行完全满足从零搭建的需求。接下来是文本预处理环节这一步对应我们测试中的用例预处理步骤直接影响最终分类效果。中文文本分类的第一步是分词我们使用jieba分词就可以满足需求针对测试场景还可以自定义词典比如把我们产品中的业务术语、模块名称加入自定义词典避免分词错误比如把“支付回调”“优惠券核销”这类测试常用词整体切分而不是切成单个字。分词完成后我们需要去除停用词比如“的”“是”“我”这类没有实际意义的助词还有“请”“帮忙看一下”这类bug描述中的语气词去掉这些噪声可以让模型更关注核心内容。预处理完成后我们需要把文本转换成模型能识别的数值特征最常用也最适合小样本场景的是TF-IDF特征提取。简单来说TF-IDF就是计算每个词在当前文本中的出现频率以及在整个语料库中的出现频率最终给每个词赋予一个权重越少见、越有区分度的词权重越高比如“内存溢出”这个词只出现在性能问题中权重就会很高而“问题”这个词每个分类都有权重就会很低非常符合我们缺陷分类的场景。我们可以直接调用sklearn中的TfidfVectorizer实现只需要配置好分词函数和停用词表一行代码就能完成特征转换。特征提取完成后就是选择分类模型。对于我们的小样本测试场景初始版本选择支持向量机SVM就足够了SVM在高维稀疏特征TF-IDF就是典型的高维稀疏特征上的表现非常稳定训练速度快调参也简单。当然你也可以尝试逻辑回归、随机森林等模型我们可以用sklearn提供的网格搜索工具自动在验证集上调参选择效果最好的模型。比如针对SVM我们只需要遍历不同的正则化参数C和核函数就能找到最优配置整个过程都是自动化的不需要手动反复测试。三、模型训练与效果验证用测试思维验证分类质量模型训练的过程非常简单几行代码就能完成但对于我们测试从业者来说效果验证环节才是核心我们要像测试产品功能一样全面验证模型的分类效果而不是只看一个整体准确率。首先我们要选择合适的评估指标对于分类任务尤其是不同类别样本数量不平衡的场景比如一般项目中功能缺陷远多于安全漏洞不能只看整体准确率还要看每个类别的精确率、召回率和F1值。精确率代表模型预测为某一类的样本中真的属于该类的比例对应到缺陷分类就是“模型预测为性能问题的bug中真的是性能问题的比例”召回率代表真的属于某一类的样本中被模型正确找出来的比例。F1值是精确率和召回率的调和平均数是综合衡量分类效果的指标。我们可以通过sklearn提供的分类报告直接输出每个类别的指标非常方便。举个实际测试的例子我在搭建缺陷分类系统的时候初始模型整体准确率达到了82%看起来不错但看具体分类指标就发现兼容性问题的召回率只有65%原因是很多兼容性bug的描述都会提到“在某浏览器下页面异常”而界面异常也会提到“页面异常”模型区分不开。针对这个问题我们可以做针对性优化在预处理阶段把“在XX浏览器下”“在安卓XX版本上”这类特征词做权重提升或者增加更多兼容性bug的训练样本优化之后兼容性问题的召回率提升到了81%整体准确率也提升到了87%完全满足日常使用的需求。验证完模型效果之后我们需要把训练好的模型保存下来方便后续部署调用使用joblib可以直接把整个预处理 pipeline 和分类模型保存成一个文件部署的时候只需要加载这个文件就能直接对新文本做分类非常简单。四、部署与业务接入让分类系统真正服务于测试工作模型训练完成不是终点能接入我们日常测试工作流程才是有价值的项目。对于测试场景来说我们不需要搭建复杂的线上服务两种轻量化部署方式就能满足大部分需求第一种是命令行脚本工具的方式适合需要批量处理文本的场景。比如我们定期要统计不同模块的缺陷分布就可以写一个简单的Python脚本从缺陷系统导出新的bug列表调用我们训练好的模型自动分类输出统计报表整个过程只需要几秒钟原来人工分类需要几个小时的工作现在一键完成。第二种方式是封装成HTTP接口接入我们现有测试平台比如用Flask写一个简单的接口接收文本数据返回分类结果这样当测试人员在缺陷系统提交新bug的时候就能自动调用接口打标签完全不需要人工干预实现端到端的自动化。接入业务之后我们还要持续迭代优化模型这也是符合测试闭环思维的把模型分类错误的样本收集起来定期重新训练模型比如每个季度用新标注的bug更新一次训练集重新调参模型的效果会越来越准。比如我在使用了半年之后收集了两千多新的标注样本模型的整体准确率提升到了92%已经接近人工分类的水平。五、扩展场景文本分类系统在测试工作中的更多可能搭建好基础的文本分类系统之后我们可以扩展到非常多的测试场景进一步释放测试生产力比如测试用例分类可以自动把测试用例按照功能模块、测试类型功能测试、性能测试、安全测试分类方便测试套件管理比如用户反馈分类可以把应用商店的用户评论、客服收集的用户问题自动分类快速统计出用户反馈最多的问题类型帮助测试团队优先聚焦核心风险比如需求文档合规性检查可以把需求文本分类为“描述清晰”“描述模糊”“存在歧义”提前发现需求中的问题减少后期测试返工。对于软件测试从业者来说学习NLP并且动手搭建这个项目不仅仅是得到一个能用的工具更重要的是提升我们的技术能力开拓测试工作的新思路。原来我们测试工作很多重复性的文本处理工作都可以通过自然语言处理实现自动化让我们从繁琐的手工劳动中解放出来把精力放在更有价值的测试设计和风险分析上。总的来说从0到1搭建属于自己的文本分类系统对于测试从业者来说并没有想象中那么难只要跟着步骤一步步来利用现有的开源工具结合我们熟悉的测试思维只需要几天时间就能做出一个可用的系统并且快速落地到日常工作中产生价值。如果你也想提升测试效率不妨动手试试相信你会收获不一样的惊喜。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2644404.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…