大语言模型评测工具verl-tool:一体化、标准化的开源模型验证方案

news2026/5/14 16:26:40
1. 项目概述一个面向开源模型验证的“瑞士军刀”最近在折腾大语言模型LLM的本地部署和评测发现一个挺普遍的问题模型是跑起来了但怎么知道它到底好不好用性能到底怎么样总不能每次都靠人工去问“你是谁”或者写首诗来感觉吧。对于开源社区里层出不穷的新模型无论是Meta的Llama系列、国内的Qwen、DeepSeek还是各种基于它们微调的“炼丹”成果我们都需要一套系统、客观、可复现的方法来评估其能力。这就是我关注到TIGER-AI-Lab推出的verl-tool项目的初衷。简单来说verl-tool是一个专为开源大语言模型设计的验证与评估工具包。你可以把它想象成给LLM准备的“标准化考试系统”和“体检中心”的结合体。它不负责训练模型也不提供模型本身它的核心使命是给你一个模型通常是Hugging Face格式的你就能用这套工具快速、全面地给它“打分”了解它在各种任务上的真实水平。这个工具解决的核心痛点非常明确。首先评估标准不统一。社区里评测模型时有人用MMLU大规模多任务语言理解有人用C-Eval中文评测基准还有人自己编几个问题测试结果很难横向对比。其次评测过程繁琐。搭建评测环境、下载数据集、编写评测脚本、处理输出结果……每一步都可能遇到坑消耗大量时间。最后结果可信度存疑。评测过程中的随机性、提示词Prompt设计的细微差别都可能显著影响最终分数。verl-tool试图通过提供一个一体化、标准化、可扩展的解决方案来应对这些挑战。它内置了多个主流的中英文评测基准提供了统一的执行和评分框架并且设计上考虑了易用性和可复现性。对于模型开发者可以用它来客观衡量自己模型的进步对于模型使用者比如技术选型者可以用它来横向比较不同模型的优劣对于研究者则可以基于它进行更深入的评估方法探索。2. 核心设计理念与架构拆解2.1 为什么是“一体化”设计在接触verl-tool之前我尝试过手动组合各种评测方案。比如用lm-evaluation-harness跑一部分任务再用OpenCompass跑另一部分中间还要自己写脚本处理格式转换和结果汇总。这个过程不仅效率低下而且环境依赖复杂版本冲突是家常便饭。verl-tool的一体化设计正是为了终结这种混乱。它的设计目标很清晰用户只需关注两件事——模型和数据剩下的交给工具。这意味着从加载模型、读取评测集、执行推理、到评分和生成报告整个流水线被封装在了一个协调的框架内。这种一体化带来的好处是实实在在的环境隔离与可复现性工具通常会管理好所有依赖甚至提供Docker环境。确保今天跑出的分数明天、在另一台机器上还能原样复现。配置即代码通过一个配置文件通常是YAML或JSON用户可以声明式地定义要评测的模型、使用的基准测试、以及评估参数。这比写一堆散落的脚本要清晰和可维护得多。结果标准化所有评测任务的结果最终会被汇总成一份结构化的报告如JSON、Markdown或网页包含总分、分项得分、甚至样例分析便于直接比较和分享。2.2 核心组件与工作流解析虽然我没有看到verl-tool的全部源码但根据其项目描述和同类工具如OpenCompass, MT-Bench的通用架构可以推断其核心组件和工作流大致如下1. 配置解析器 (Config Parser)这是工具的“大脑”。它读取用户提供的配置文件理解用户想要评测哪些模型、在哪些数据集上、使用什么参数。一个典型的配置可能包括model: 模型路径或Hugging Face ID以及必要的加载参数如精度torch_dtype、设备映射device_map。datasets: 一个列表包含要评测的基准名称如ceval,mmlu,gsm8k及其特定配置如子集、few-shot数量。generation: 推理生成参数如温度temperature、最大生成长度max_new_tokens、采样方式等。evaluation: 评分规则例如如何从模型输出中提取答案、如何与标准答案比对。2. 模型加载与适配层 (Model Loader Adapter)这是工具的“手”。它负责与Hugging Face的transformers库或其它推理后端如vLLM, llama.cpp交互将配置中指定的模型加载到内存中。更关键的是适配层。不同的模型可能有不同的对话模板Chat Template。例如ChatML格式、Llama2的对话格式、Qwen的格式都不同。适配层的作用是将统一的“问题”包装成模型能理解的特定Prompt格式确保评测的公平性。如果Prompt格式不对再强的模型也可能给出离谱的答案。3. 数据加载器 (Data Loader)这是工具的“题库”。它内置或支持从网络下载各种公开的评测数据集。这些数据集通常被处理成标准格式例如每个样本包含question问题、choices多项选择选项如果有、answer标准答案。数据加载器按批次将数据提供给推理引擎。4. 推理引擎 (Inference Engine)这是工具的“执行者”。它组织批量数据调用已加载的模型进行前向传播生成并收集模型的输出。这里会应用配置中定义的生成参数。为了提高效率成熟的工具会实现批量推理batch inference和智能的缓存机制。5. 评估器 (Evaluator)这是工具的“阅卷老师”。它根据不同的任务类型采用不同的评分策略选择题直接比对模型输出的选项字母如A, B, C, D或从生成文本中提取出的选项与标准答案是否一致。数学/推理题可能使用正则表达式提取最终答案中的数字或者使用更复杂的程序化判断如执行模型生成的代码来验证结果。开放式问答可能使用基于NLI自然语言推理的模型如BERTScore或GPT-4作为裁判来评估生成内容与参考答案的语义相似度。verl-tool可能会集成多种评估方式。6. 报告生成器 (Report Generator)这是工具的“成绩单打印机”。它将各个数据集、各个维度的评分结果汇总计算平均分、加权分等。最终生成人类可读的报告如Markdown表格、CSV文件或交互式网页直观展示模型的能力雷达图、强弱项分析等。注意上述架构是基于通用LLM评估工具的推断。verl-tool的具体实现可能有所不同但其核心逻辑必然是围绕“配置-加载-推理-评估-报告”这个流水线展开的。理解这个流程对于使用任何同类工具都至关重要。2.3 关键特性与优势推测基于项目定位verl-tool很可能具备以下关键特性这些也是它相较于“手搓脚本”的核心优势多基准支持一站式集成C-Eval, MMLU, GSM8K, HumanEval, BBH等国内外主流基准覆盖知识、推理、数学、代码等多维度能力。模型兼容性广通过适配层应能支持绝大多数Hugging Face格式的AutoModel包括全量参数、LoRA微调后的模型等。评估方法灵活除了精确匹配可能支持模糊匹配、基于规则的答案提取、甚至LLM-as-a-Judge使用高级模型如GPT-4做裁判等高级评估模式。效率优化支持批量推理、多卡并行、混合精度计算FP16/BF16以加速大规模评测过程。可扩展性允许用户自定义数据集和评估指标方便社区贡献和针对特定场景的评估。3. 实战演练从零开始使用 verl-tool 评测模型假设我们现在手头有一个刚下载的Qwen2.5-7B-Instruct模型想用verl-tool快速评估一下它的综合能力。以下是基于工具通用使用方法的详细步骤。3.1 环境准备与安装第一步永远是搭建一个干净、可控的环境。强烈建议使用Conda或虚拟环境。# 1. 创建并激活一个独立的Python环境 conda create -n verl-eval python3.10 -y conda activate verl-eval # 2. 安装PyTorch请根据你的CUDA版本到PyTorch官网选择对应命令 # 例如对于CUDA 11.8 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 3. 克隆 verl-tool 仓库并安装依赖 git clone https://github.com/TIGER-AI-Lab/verl-tool.git cd verl-tool pip install -e . # 以可编辑模式安装方便后续修改或查看源码 # 或者根据项目要求安装 pip install -r requirements.txt实操心得Python版本建议3.9或3.10这是大多数深度学习库兼容性最好的版本。安装PyTorch时务必去 官网 生成对应你CUDA版本的安装命令。用nvidia-smi查看CUDA版本。版本不匹配会导致无法使用GPU。如果网络环境导致克隆或安装慢可以配置镜像源。但安装verl-tool本身时要留意其requirements.txt中是否有直接从GitHub安装的包这些可能无法换源。3.2 准备模型与配置文件模型可以放在本地也可以直接使用Hugging Face Hub上的标识符。这里我们使用本地模型。# 假设你的Qwen2.5模型下载到了以下路径 MODEL_PATH/path/to/your/Qwen2.5-7B-Instruct接下来是核心步骤编写配置文件。通常工具会提供一个配置模板。我们需要创建一个YAML文件例如config_qwen.yaml。# config_qwen.yaml model: path: /path/to/your/Qwen2.5-7B-Instruct # 或使用 huggyface.co/Qwen/Qwen2.5-7B-Instruct model_type: qwen2.5 # 关键指定模型类型以应用正确的对话模板 torch_dtype: bfloat16 # 节省显存大多数模型支持 device_map: auto # 自动分配模型层到多GPU或CPU datasets: - name: ceval # 中文知识评测基准 args: split: val # 使用验证集 few_shot: 5 # 5-shot learning - name: mmlu # 英文多任务理解基准 args: split: test few_shot: 5 - name: gsm8k # 小学数学应用题基准 args: split: test generation: max_new_tokens: 1024 temperature: 0.0 # 设置为0以保证生成结果确定性便于复现 do_sample: false evaluation: output_dir: ./results/qwen2.5-7b # 结果输出路径关键点解析model_type: 这是最容易出错的地方。必须指定正确的模型系列如llama,qwen,chatglm工具内部的适配器才会调用对应的对话模板函数。如果填错模型可能无法理解你的问题。torch_dtype: 使用bfloat16通常能在几乎不损失精度的情况下比float16更稳定比float32节省一半显存。是当前的主流选择。temperature: 0.0和do_sample: false: 在模型评测中我们通常希望结果是确定性的即每次运行相同的输入得到相同的输出。这通过贪婪解码Greedy Decoding实现temperature0是关键。output_dir: 建议按模型和日期组织结果目录方便后续管理和比较。3.3 运行评测并解读结果配置好后运行评测命令通常很简单python run_eval.py --config config_qwen.yaml或者如果工具提供了CLIverl-tool eval --config config_qwen.yaml这个过程可能会比较耗时取决于数据集大小、模型参数量和你的硬件。一个7B模型在CEval约1.3万道选择题上跑完在单张A100上可能需要1-2小时。运行时的监控与调试显存占用使用nvidia-smi命令监控GPU显存。如果爆显存需要尝试调整batch_size如果配置支持、启用flash_attention如果模型支持、或者使用accelerate库进行更精细的模型并行。日志信息关注工具打印的日志。正常的日志会显示当前正在评测的数据集、进度、以及实时估算的剩余时间。如果出现大量错误或警告需要暂停检查。中断与恢复好的评测工具应该支持断点续跑。如果进程意外中断检查output_dir下是否有缓存或中间结果并查阅工具文档看是否支持从断点恢复。评测完成后工具会在output_dir下生成结果文件。典型的输出可能包括summary.json: 包含所有数据集的详细得分例如{ceval: {accuracy: 0.756, ...}, mmlu: {...}}。detailed_results.csv: 每一道题目的模型输出、标准答案和正误情况。report.md: 一个人工可读的总结报告包含分数表格和简要分析。如何解读分数绝对分数例如CEval分数0.756即75.6%。你需要有一个参照系。可以去查阅官方榜单看看同尺寸的其他模型如Llama-3-8B, GLM-4-9B在相同基准下的分数从而判断你的模型处于什么水平。相对强弱比较模型在不同数据集上的表现。例如一个模型可能gsm8k数学分数很高但ceval知识分数一般这说明它强于推理而弱于知识记忆。注意置信区间对于小型测试集分数的微小差异如1-2个百分点可能没有统计显著性。大型基准如MMLU约1.5万题的结果则更可靠。4. 深度使用技巧与高级场景4.1 自定义数据集评测内置基准虽好但很多时候我们需要评估模型在特定领域或任务上的表现比如法律问答、医疗咨询或公司内部知识库查询。verl-tool这类工具通常支持自定义数据集。步骤一准备数据你需要将数据整理成工具要求的格式。通常是一个JSON或JSONL文件每行一个样本。格式取决于任务类型。示例自定义多项选择题数据集JSONL{id: 1, question: 《合同法》中要约生效的时间是, choices: [A. 要约发出时, B. 要约到达受要约人时, C. 受要约人承诺时, D. 合同成立时], answer: B} {id: 2, question: Python中列表的深拷贝方法是, choices: [A. list.copy(), B. copy.copy(list), C. copy.deepcopy(list), D. list[:]], answer: C}示例自定义开放式问答数据集JSONL{id: 1, question: 请用一句话解释什么是机器学习。, reference: 机器学习是人工智能的一个分支它使计算机系统能够从数据中学习并改进性能而无需进行明确的编程。} {id: 2, question: 简述TCP三次握手的过程。, reference: 客户端发送SYN报文到服务器进入SYN_SENT状态服务器收到SYN后回复SYNACK进入SYN_RCVD状态客户端收到SYNACK后再发送ACK给服务器双方进入ESTABLISHED状态连接建立。}步骤二编写数据集加载脚本在verl-tool的框架下你可能需要创建一个新的Python文件例如my_dataset.py继承一个基础的Dataset类并实现__getitem__和__len__方法。更友好的工具会允许你通过配置文件直接指定本地文件路径和格式。步骤三配置与运行在配置文件中引用你的自定义数据集。datasets: - name: my_custom_law_qa # 对应你注册的数据集名称或脚本路径 path: /path/to/your/law_questions.jsonl type: multiple_choice # 或 open_ended - name: my_tech_qa path: /path/to/your/tech_questions.jsonl type: open_ended evaluation: # 为开放式问答指定评估方式 method: bert_score # 使用BERTScore计算相似度 # 或 method: gpt4_judge # 使用GPT-4作为裁判4.2 模型对比与排行榜生成单个模型的评测意义有限我们常常需要横向对比多个模型。verl-tool应该支持批量评测。方法一循环脚本最直接的方法是写一个Shell脚本或Python脚本循环修改配置文件中的model.path然后依次运行评测命令。最后手动汇总各模型的结果文件。方法二利用工具的批量模式如果工具设计得好可能会支持在配置文件中直接定义模型列表。models: - name: Qwen2.5-7B-Instruct path: /models/qwen2.5-7b-instruct type: qwen2.5 - name: Llama-3.1-8B-Instruct path: /models/llama-3.1-8b-instruct type: llama3 - name: Gemma-2-7B-It path: /models/gemma-2-7b-it type: gemma datasets: - name: ceval # ... 其他配置运行后工具会为每个模型生成独立的结果目录并可能自动生成一个对比报告或排行榜Leaderboard网页直观展示各模型在不同基准上的得分。生成可视化报告 你可以将汇总的JSON结果例如每个模型的summary.json用Python的pandas和matplotlib或seaborn库进行处理绘制成柱状图或雷达图。import pandas as pd import matplotlib.pyplot as plt import json import os results {} model_dirs [‘qwen2.5-7b‘, ‘llama3.1-8b‘, ‘gemma2-7b‘] for model in model_dirs: with open(f‘./results/{model}/summary.json‘, ‘r‘) as f: data json.load(f) results[model] {k: v.get(‘accuracy‘, 0) for k, v in data.items() if ‘accuracy‘ in v} df pd.DataFrame(results).T # 行是模型列是数据集 df.plot(kind‘bar‘, figsize(10, 6)) plt.title(‘模型评测对比‘) plt.ylabel(‘准确率‘) plt.xticks(rotation45) plt.tight_layout() plt.savefig(‘model_comparison.png‘) plt.show()4.3 性能调优与大规模评测当评测模型很大如70B以上或数据集很多时效率成为关键问题。1. 利用vLLM等高性能推理后端verl-tool可能支持将model配置中的后端从标准的transformers切换到vLLM。vLLM通过其PagedAttention等技术可以极大地提高推理吞吐量。model: backend: vllm # 指定使用vLLM后端 path: /models/Qwen2.5-72B-Instruct tensor_parallel_size: 4 # 在4张GPU上进行张量并行 max_model_len: 81922. 调整批量大小Batch Size在配置的generation部分或模型加载参数中寻找batch_size或max_batch_size。增大batch size可以更充分地利用GPU并行计算能力但也会增加显存消耗和延迟。需要在显存容量和速度之间找到平衡点。通常可以从较小值如4或8开始尝试逐步增加直到接近显存上限。3. 使用混合精度与量化torch_dtype: bfloat16已经是混合精度。对于支持flash_attention的模型确保启用它这能进一步节省显存和加速。对于消费级显卡如24G显存想运行70B模型进行评测几乎必须使用量化。可以在配置中指定量化加载model: path: /models/Llama-3-70B-Instruct load_in_4bit: true # 使用bitsandbytes进行4位量化 bnb_4bit_compute_dtype: bfloat16注意量化会轻微影响模型精度评测结果与全精度模型会有差异这属于权衡。4. 分布式评测如果你有多个GPU服务器一些高级的评测框架支持将不同的数据集或同一数据集的不同部分分发到不同节点上并行运行最后汇总结果。这需要工具本身支持或你自行设计任务分发逻辑。5. 常见问题与故障排除实录在实际使用过程中你几乎一定会遇到下面这些问题。这里记录了我踩过的坑和解决方案。5.1 模型加载失败与对话模板错误问题现象运行评测后模型虽然加载了但生成的答案全是乱码、无关内容或者模型完全“不理解”问题。排查步骤检查model_type这是最常见的原因。确认你配置的model_type如qwen2.5,llama3,chatglm3与模型完全匹配。一个简单的验证方法是用Hugging Face的transformers库写一个极简的测试脚本手动构造一个对话看模型能否正常回复。检查Tokenizer有时模型和Tokenizer需要从不同的路径加载。确保配置中指定的路径同时包含模型和Tokenizer文件。如果使用Hugging Face Hub ID则一般没问题。查看原始Prompt在工具的日志中寻找是否打印了发送给模型的原始Prompt。将其复制出来与模型官方文档中示例的Prompt格式进行对比。格式必须一致。手动测试脱离评测工具直接用以下脚本测试模型对话是否正常from transformers import AutoTokenizer, AutoModelForCausalLM import torch model_path “/your/model/path“ tokenizer AutoTokenizer.from_pretrained(model_path, trust_remote_codeTrue) # 注意trust_remote_code model AutoModelForCausalLM.from_pretrained(model_path, torch_dtypetorch.bfloat16, device_map“auto“) prompt “你是谁“ # 或使用官方示例对话格式 inputs tokenizer(prompt, return_tensors“pt“).to(model.device) outputs model.generate(**inputs, max_new_tokens100) print(tokenizer.decode(outputs[0], skip_special_tokensTrue))如果这里就不正常那问题出在模型或Tokenizer本身而非评测工具。5.2 显存不足OOM问题问题现象程序开始运行后很快崩溃报错CUDA out of memory。解决方案由易到难减小batch_size在配置文件中找到并调小batch_size参数。启用梯度检查点在模型配置中添加use_cache: false。这会稍微降低速度但节省大量显存。使用更低的精度确保torch_dtype设置为bfloat16或float16。启用CPU卸载对于非常大的模型可以使用accelerate库的device_map“auto“它会自动将部分层卸载到CPU内存。但这会显著降低推理速度。使用量化如前所述使用4位或8位量化是运行超大模型的最有效手段。参考bitsandbytes库的集成方式。使用模型并行如果有多张GPU通过tensor_parallel_size在vLLM中或device_map指定多个GPU来实现模型并行。5.3 评测结果不一致或不可复现问题现象同一模型、同一配置两次跑出来的分数有差异。排查步骤确保随机种子固定在配置或运行脚本的开头设置PyTorch、NumPy、Python的随机种子。import torch, numpy, random seed 42 torch.manual_seed(seed) numpy.random.seed(seed) random.seed(seed)如果使用CUDA还需要torch.cuda.manual_seed_all(seed)。检查生成参数确认temperature0.0且do_samplefalse。这是保证贪婪解码、结果确定性的关键。检查数据顺序确保数据加载的顺序是固定的。有些数据加载器默认会打乱shuffle数据需要在配置中关闭。检查模型状态确保模型处于.eval()模式并且没有启用Dropout等随机性模块。版本一致性确保两次运行使用的verl-tool代码版本、transformers库版本、甚至CUDA/cuDNN版本完全一致。深度学习领域版本差异可能导致不同的底层计算行为。5.4 评估指标理解偏差问题现象自己手动判断模型答对了但工具判错或者反之。排查步骤查看详细输出检查detailed_results.csv文件看模型的具体输出、提取的答案和标准答案分别是什么。理解评估逻辑仔细阅读工具文档中关于每个数据集评估方法的说明。例如选择题是直接取模型生成文本的第一个字母还是从文本中匹配(A)这样的模式有些工具会先让模型输出“答案是A”然后提取“A”。数学题是进行字符串完全匹配还是数值匹配“42“和“42.0“可能被算作不同。开放式问答如果使用BERTScore其分数是连续值阈值如何设定如果使用GPT-4裁判Prompt设计是什么自定义评估规则如果工具的默认规则不符合你的需求寻找是否支持自定义评估函数evaluator。这通常需要你编写一小段Python代码来定义如何从prediction模型输出和reference标准答案中计算得分。5.5 网络与数据下载问题问题现象工具在运行时卡住报错连接超时或无法下载数据集。解决方案预下载数据集大多数工具支持离线模式。你可以先根据日志或源码找到数据集对应的Hugging Face仓库或URL手动下载到本地某个目录如~/.cache/huggingface/datasets然后在配置中指定本地路径。配置镜像源对于在国内下载Hugging Face资源慢的问题可以设置环境变量export HF_ENDPOINThttps://hf-mirror.com这会将Hugging Face的域名指向国内镜像站。代理设置如果你的网络环境需要确保为Python请求设置了正确的代理http_proxy,https_proxy环境变量。最后再分享一个我个人的体会评测工具给出的分数只是一个相对客观的参考绝不是评价模型好坏的唯一标准。一个在MMLU上高分的中等模型在实际对话任务中的流畅度和“智慧感”可能远不如一个分数稍低但经过高质量SFT和RLHF打磨的模型。因此verl-tool这样的工具最佳使用方式是将其作为自动化、批量化的初步筛选和量化对比手段结合真实场景下的人工深度体验才能对模型能力做出最全面的判断。毕竟模型最终是要为人服务的人的主观感受同样重要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2587576.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…