第15节:Ollama架构调优实战手册【让大模型在任意硬件上跑出最优解】

news2026/4/16 9:12:55
文章目录前言一、 基于架构特性的部署适配方案1.1 不同硬件环境适配结合硬件适配组件1.2 多场景部署适配结合核心服务层特性二、 基于架构的性能优化策略2.1 推理性能优化针对推理引擎组件2.2 资源利用率优化针对硬件适配与调度组件2.3 部署效率优化针对支撑层组件三、 架构扩展与定制化实战插件扩展基于插件化架构组件替换替换核心组件API扩展满足企业级集成需求定制化实战示例开发一个简易模型性能基准测试插件结论前言Ollama作为当前流行的本地大语言模型部署与运行框架以其开箱即用、轻量级、高性能的特性在开发者、中小企业乃至大型企业中获得了广泛关注。然而从原型验证到生产部署如何根据不同的硬件环境、应用场景和性能需求对Ollama进行深度适配、调优与扩展是发挥其最大价值的关键。本文旨在提供一份详尽、实战导向的技术指南从部署适配、性能优化到架构扩展三个核心维度深入剖析Ollama的内部架构并给出针对性的配置、调优与二次开发方案。我们将遵循“架构剖析→场景适配→量化调优→定制扩展”的技术路径为工程师提供一套从零构建稳定、高效、可扩展的Ollama服务体系的完整方法论。一、 基于架构特性的部署适配方案Ollama的成功部署始于对目标环境的精准适配。其架构核心服务层、模型库、硬件适配与调度层、支撑层的模块化设计为灵活适配提供了基础。本节将结合架构中的特定组件详述不同环境的适配策略。1.1 不同硬件环境适配结合硬件适配组件Ollama的硬件适配与调度层是连接上层服务与底层硬件的桥梁对不同硬件的支持深度直接决定了部署的效率和性能上限。1.1.1 CPU部署基于架构的CPU推理优化配置在无GPU或低成本原型环境中CPU部署是首选。优化核心是最大化利用现代CPU的多核并行与向量化指令集如AVX2, AVX-512。推理引擎配置Ollama默认使用llama.cpp作为后端之一其CPU推理效率极高。关键在于选择合适的编译选项。在源码编译Ollama或相关库时应启用对应的指令集支持。例如在具有AVX-512的至强服务器上编译时指定-DLLAMA_AVX512on可大幅提升矩阵运算速度。线程数num_thread/OMP_NUM_THREADS这是最重要的参数。通常设置为物理核心数以充分利用所有核心。对于同时运行多个模型实例可考虑设置为物理核心数 / 模型实例数以避免超线程竞争导致的性能下降。例如在一台16核服务器上部署单个模型可设置OMP_NUM_THREADS16。批处理大小batch_size在CPU上较小的批处理如32或64有助于减少单次推理的内存压力和延迟但可能牺牲吞吐量。需根据CPU缓存大小L2, L3调整确保常用参数能驻留缓存。典型Modelfile配置示例# 专为CPU优化配置的Modelfile FROM qwen2.5:7b PARAMETER num_thread 16 PARAMETER numa true # 若为NUMA架构启用NUMA感知可提升内存访问效率 PARAMETER batch_size 64 SYSTEM “你是一个高效的CPU推理助手。” TEMPLATE {{ .Prompt }}1.1.2 GPU部署NVIDIA/AMD/Apple GPU适配GPU部署是追求极致推理速度的选择。Ollama通过动态链接CUDA、ROCm或Metal后端库来实现。NVIDIA GPU驱动与CUDA确保安装与GPU型号匹配的最新NVIDIA驱动和CUDA Toolkit。Ollama的预编译包通常包含常用CUDA版本若需特定版本需从源码编译。显存优化核心是GPU显存管理。层卸载num_gpu在Modelfile中使用PARAMETER num_gpu 40例如将模型的40层分配到GPU。这是最核心的优化将模型参数、KV缓存尽可能放入显存。需根据模型总层数和显存大小如24GB的4090运行7B模型通常可全部载入计算。FlashAttention-2在支持的模型如Llama 2/3中启用FlashAttention-2可大幅降低注意力层的显存占用和计算时间。检查模型是否默认启用或需在编译时开启支持。上下文长度与KV缓存长上下文会线性增加KV缓存显存占用。对于有限显存需权衡context_length。32K上下文对7B模型可能需数GB显存仅用于KV缓存。AMD GPUROCm支持确保系统安装正确版本的ROCm。Ollama通过llama.cpp的HIP后端支持AMD GPU。下载或编译时需选择支持ROCm的版本。配置与NVIDIA类似通过参数如-nglnumber of GPU layers来指定卸载到GPU的层数。命令如ollama run llama3.2:1b -ngl 40。Apple Silicon GPUMetal APIOllama对Apple SiliconM系列芯片有原生优化通过Metal后端调用GPU的统一内存架构效率极高。配置通常无需复杂配置。关键参数是num_gpu用于控制模型多少比例在GPU上执行。在Modelfile中设置PARAMETER num_gpu 1.0或更高比例的小数可尽可能利用GPU。Apple芯片的显存共享设计使得大模型能在“内存”对Apple是统一内存中高效运行。1.1.3 边缘设备部署轻量级优化与功耗控制在Jetson、树莓派5、Windows迷你主机等边缘设备上部署核心矛盾是有限资源算力、内存、功耗与功能需求。模型量化这是边缘部署的生命线。必须使用高度量化的模型变体如q4_K_M,q3_K_S, 甚至q2_K。Ollama官方仓库中许多模型提供了量化版本。优先选择参数量更小的模型如1B-3B。# 拉取高度量化的小模型ollama run llama3.2:1b-instruct-q4_K_M资源限制通过Modelfile的PARAMETER或环境变量严格限制资源使用。num_thread: 设置为边缘设备CPU的物理小核心数以控制功耗和发热。batch_size: 设置为1流式响应以最小化内存占用和延迟。基于架构的功耗控制调度策略在支持动态调频的ARM设备如Jetson上可结合系统工具如nvpmodel设置低功耗运行模式。唤醒策略对于间歇性工作的场景可配合systemd服务或cron任务在无请求时暂停/停止Ollama服务有请求时通过API唤醒实现功耗优化。1.2 多场景部署适配结合核心服务层特性Ollama的核心服务层暴露了REST API和CLI这是适配不同应用场景的入口。1.2.1 开发者本地调试场景特点快速启动、频繁变更、单用户、低并发。CLI为主API为辅日常调试、快速测试模型效果使用ollama run命令。自动化测试或集成开发环境则调用http://localhost:11434的API。利用轻量特性快速启动Ollama的守护进程ollama serve在后台运行模型按需加载。开发者可以快速在不同模型间切换测试。参数调试通过Modelfile创建自定义模型变体快速试验不同的temperature,top_p,system prompt等参数无需重新下载模型。# 创建一个调试用模型变体ollama create debug-model-f./Modelfile.debug ollama run debug-model1.2.2 中小企业部署单节点多模型管理场景特点资源有限、需同时服务多个模型或团队、运维简单。单节点多模型一台性能较强的服务器如配备大显存GPU的工作站运行单个Ollama实例但承载多个模型如一个通用大模型、一个代码模型、一个轻量模型。基于调度组件的资源优化Ollama的守护进程具备基础的资源调度能力。关键在于通过启动参数限制总资源防止单个模型耗尽资源。通过系统级限制如使用docker run的--cpus,--memory,--gpus参数或使用Linux的cgroup为Ollama进程设定资源上限。在Ollama内部通过OLLAMA_NUM_PARALLEL环境变量控制并行请求数避免高并发压垮系统。降低运维成本使用systemd或docker-compose管理Ollama服务实现自启动和基本监控。利用Ollama内置的日志~/.ollama/logs/进行问题排查。1.2.3 企业级服务部署高并发、高可用场景特点高并发请求、需API集成、要求高可用性和可观测性。API集成与网关Ollama的API兼容OpenAI API格式但功能子集。在生产环境通常不会将Ollama API直接暴露给公网或大量客户端。最佳实践是部署API网关如Nginx, Kong, Tyk实现负载均衡、限流、鉴权、SSL终结。开发适配层构建一个轻量的业务中台将Ollama API封装为符合企业规范的内部API并在此层实现会话管理、提示词工程、审计日志等功能。高并发配置水平扩展在Kubernetes或Docker Swarm中部署多个Ollama实例副本每个副本绑定一个GPU或一部分CPU资源。通过网关进行负载均衡。注意模型需预加载到每个副本中这需要足够的存储和内存。Ollama配置增加OLLAMA_MAX_LOADED_MODELS环境变量让守护进程在内存中常驻更多模型减少切换开销。调整OLLAMA_NUM_PARALLEL以适应单实例并发能力。运维可视化结合监控组件。内置日志配置日志级别OLLAMA_LOG_LEVELdebug并接入ELKElasticsearch, Logstash, Kibana或类似日志平台。指标暴露Ollama的/api/version和/api/tags等端点可用于健康检查。但更细粒度的监控GPU使用率、请求延迟、token生成速度需依赖外部系统Node Exporter Prometheus Grafana监控主机资源。NVIDIA DCGM或AMD ROCm SMI监控GPU。自定义Exporter开发一个抓取Ollama内部指标如通过解析日志或添加监控端点的Prometheus Exporter实现全链路监控。二、 基于架构的性能优化策略部署完成后性能优化是提升服务质量和资源效率的核心。优化需针对Ollama架构中的不同组件进行。2.1 推理性能优化针对推理引擎组件推理引擎是性能的核心优化目标是降低延迟、提高吞吐量。2.1.1 量化优化精度与性能的平衡量化是推理加速最有效的手段它将模型权重从高精度浮点数FP16/BF16转换为低精度整数INT8/INT4大幅降低内存/显存占用和带宽需求从而提升计算速度。精度选择INT8通常精度损失极小1%推理速度比FP16快约1.5-2倍内存节省50%。适用于对精度要求高且有较好GPU支持支持INT8 Tensor Core的场景。INT4如q4_K_M精度损失可控通常1-3%内存仅为FP16的25%在CPU和边缘设备上提速非常显著。是大部分场景的性价比首选。更激进的量化INT3/INT2如q2_K内存占用极低但精度损失较大可能影响复杂逻辑和生成质量仅用于资源极度受限或对质量不敏感的场景。实战建议优先从官方库拉取q4_K_M版本进行测试。在GPU上也可尝试IQ2_XS等新格式。在CPU上q4_K_M和q3_K_L是常用选择。务必在目标数据集上进行质量评估。2.1.2 KV缓存调优长上下文推理的关键自回归生成时Transformer的注意力机制需要缓存先前所有token的Key和Value向量即KV缓存。其大小与batch_size * seq_len * num_layers * hidden_size * 2成正比。缓存大小配置Ollama通常自动管理。但在长上下文场景需注意在启动模型时指定的num_ctx上下文窗口决定了KV缓存的最大容量。不要设置得远超实际需要例如如果对话很少超过4096个token就不要设为32768否则会预分配大量无效显存。缓存淘汰策略一些高级优化如llama.cpp的shift-rope在序列超过训练长度时通过“滑动窗口”等策略让旧token的KV缓存失效而不是无限增长。关注模型是否支持此类特性。2.1.3 参数调优适配硬件资源批处理大小batch_size吞吐量与延迟的权衡。增大batch_size可提高GPU利用率显著提升吞吐量tokens/sec。适用于后台异步处理大量独立任务的场景。减小batch_size降低每次推理的计算量和内存占用减少延迟。适用于需要实时交互的对话场景。在GPU上可从1开始测试逐步增加直到延迟不可接受或吞吐量增长饱和。线程数如前所述CPU推理的关键。GPU推理时用于处理CPU部分的工作如tokenization 后处理。上下文窗口大小num_ctx根据实际应用设定。每增加一倍KV缓存内存约增加一倍注意力计算量呈平方级增长。对于仅需短对话的应用设置为2048或4096即可。2.2 资源利用率优化针对硬件适配与调度组件目标是让宝贵的硬件资源显存、内存、CPU更高效地服务更多请求。2.2.1 内存/显存优化模型分片加载对于超大规模模型如70B单个GPU无法容纳。可利用llama.cpp的tensor_split参数或vLLM等推理引擎的分布式推理能力将模型层拆分到多个GPU。Ollama本身对此支持有限更适用于单卡或CPU部署。缓存清理Ollama守护进程会缓存最近使用的模型。对于多模型、低内存环境可以通过API (DELETE /api/delete) 或CLI (ollama rm) 主动删除不用的模型或设置OLLAMA_KEEP_ALIVE环境变量缩短模型在内存中的保持时间。2.2.2 任务调度优化Ollama的守护进程处理并发请求。当多个请求同时到达时请求队列Ollama内部维护队列。可通过监控请求等待时间来判断是否需要增加实例水平扩展。避免资源竞争确保为Ollama进程分配的资源CPU核心、GPU是独享或受控的。在容器化部署中使用cpuset绑定CPU核心使用GPU设备号绑定特定GPU避免与其他进程竞争。2.2.3 硬件资源动态分配进阶Ollama原生不支持动态扩缩容。实现此功能需在外围搭建调度系统基于请求队列的自动伸缩使用Kubernetes HPAHorizontal Pod Autoscaler以Ollama网关的请求队列长度或平均响应时间为指标自动增减Ollama的Pod副本数。混合精度推理在GPU推理中部分层如嵌入层、输出层对精度更敏感可保持为FP16其余层用INT8。这需要推理引擎如TensorRT-LLM的深度支持Ollama当前默认后端对此支持较弱是未来优化方向。2.3 部署效率优化针对支撑层组件优化模型分发、加载和运维的日常效率。2.3.1 模型下载优化配置镜像源Ollama默认从registry.ollama.ai拉取模型。在企业内网可搭建私有镜像仓库官方提供ollama serve的OLLAMA_HOST和OLLAMA_MODELS环境变量配置可搭建镜像或将常用模型缓存到内部文件服务器内网客户端配置OLLAMA_HOST指向该镜像可极大加速下载。开启断点续传Ollama的拉取过程本身支持断点续传。确保网络稳定对于大模型下载至关重要。2.3.2 模型加载优化开启预加载对于确定性要使用的模型可以在服务启动后通过API立即发起一个加载请求或编写脚本在系统空闲时预拉模型避免第一次用户请求时的冷启动延迟。缓存复用确保~/.ollama/models目录位于高速存储如NVMe SSD上。多副本部署时可以使用ReadWriteMany类型的持久化存储卷如NFS CephFS共享模型目录避免每个副本重复下载。2.3.3 运维优化监控与排障利用监控组件如前文企业级部署所述建立完善的监控体系Prometheus, Grafana。关键监控指标主机CPU/内存/磁盘IO/网络IO使用率。GPU利用率、显存使用量、温度、功耗。应用层Ollama API的请求速率、响应延迟P50, P95, P99、错误率、Token生成速度。业务层用户会话数、平均对话轮次、意图识别准确率需业务侧埋点。快速定位瓶颈当性能下降时按以下顺序排查检查监控GPU是否占满显存是否溢出CPU是否成为瓶颈查看日志OLLAMA_LOG_LEVELdebug重启服务观察推理过程中的详细日志查找WARNING或ERROR。使用性能分析工具对于GPU使用nsysNVIDIA或rocprofAMD进行性能剖析定位是注意力计算还是矩阵乘法成为热点。三、 架构扩展与定制化实战Ollama的模块化架构为其扩展和定制提供了可能尽管其核心设计追求简洁但仍有介入点。插件扩展基于插件化架构Ollama本身并非强插件化系统但其设计允许通过外部工具和集成进行功能扩展。自定义模型仓库开发一个简单的HTTP服务模拟Ollama Registry API/api/tags,/api/pull等即可作为私有模型源。客户端配置OLLAMA_HOST指向此服务。这可用于企业内部发布经过微调或定制的模型。日志分析插件编写一个守护进程监听Ollama的日志文件~/.ollama/logs/server.log解析其中的请求、响应和性能信息将其发送到Elasticsearch或时序数据库构建比基础日志更强大的分析看板。组件替换替换核心组件这是更深入的定制通常需要fork源码并修改。替换推理引擎Ollama目前主要集成llama.cpp。理论上可以修改其server部分的代码将模型加载和推理的后端从llama.cpp替换为vLLM,TGI(Text Generation Inference) 或TensorRT-LLM。这能带来动态批处理、持续批处理、更高级的调度等企业级特性但工程量巨大需要深度理解Ollama的internal包和runner接口。一个更可行的路径是利用Ollama的API在其上层封装一个代理层将请求路由到不同的后端推理服务。替换存储组件Ollama的模型存储在本地文件系统。可以修改模型加载部分的代码使其支持从对象存储如S3、数据库或分布式文件系统中拉取和缓存模型文件实现更灵活的模型分发。API扩展满足企业级集成需求Ollama的API是功能子集。企业常需扩展功能。方法一API网关/中间件封装推荐不修改Ollama本身而是在其前端部署一个反向代理如Nginx Lua, Go编写的中间件。此中间件扩展API添加Ollama没有的管理接口如/v1/models/{id}/stats获取模型运行统计。增强功能实现复杂的鉴权API Key, OAuth2、计费、请求审计、敏感词过滤、输出格式化。协议转换将Ollama API完全包装成与OpenAI API 100%兼容的格式方便已有应用无缝迁移。方法二修改Ollama源码直接修改server/routes.go文件添加新的路由和处理函数。例如添加一个/api/debug/profile端点用于触发并返回一次性能剖析报告。此方法需维护自己的Ollama分支能跟随上游更新。定制化实战示例开发一个简易模型性能基准测试插件以下是一个概念性示例展示如何通过外部脚本扩展Ollama功能#!/usr/bin/env python3importrequestsimporttimeimportstatisticsimportargparse OLLAMA_BASE_URLhttp://localhost:11434defbenchmark_model(model_name,prompt,num_requests10,streamFalse):对指定模型进行基准测试urlf{OLLAMA_BASE_URL}/api/generateheaders{Content-Type:application/json}data{model:model_name,prompt:prompt,stream:stream,options:{num_predict:128}# 固定生成长度}latencies[]foriinrange(num_requests):starttime.time()responserequests.post(url,jsondata,headersheaders)endtime.time()ifresponse.status_code200:latencies.append(end-start)resp_dataresponse.json()tokens_per_secresp_data.get(eval_count,0)/(end-start)if(end-start)0else0print(fReq{i1}: Latency{latencies[-1]:.2f}s, Tokens/sec{tokens_per_sec:.1f})else:print(f请求失败:{response.status_code})iflatencies:print(f\n--- 基准测试结果 ({model_name}) ---)print(f平均延迟:{statistics.mean(latencies):.2f}s)print(f延迟中位数:{statistics.median(latencies):.2f}s)print(f延迟标准差:{statistics.stdev(latencies):.2f}s)print(f总请求数:{num_requests}, 成功率:{len(latencies)/num_requests*100:.1f}%)if__name____main__:parserargparse.ArgumentParser(descriptionOllama模型性能基准测试)parser.add_argument(--model,requiredTrue,help模型名称)parser.add_argument(--prompt,default请用中文简要介绍一下人工智能的发展历史。,help测试提示词)parser.add_argument(--requests,typeint,default10,help请求次数)argsparser.parse_args()benchmark_model(args.model,args.prompt,args.requests)此脚本利用Ollama现有API实现了多轮请求测试并计算延迟和Token生成速度可作为监控和选型的辅助工具。这体现了围绕Ollama生态进行扩展的实用思路。结论Ollama为本地和大语言模型的部署与运行提供了一个优雅、高效的解决方案。从单机开发到企业级服务成功的秘诀在于深度结合其架构特性进行适配、调优与扩展。部署适配是基础需根据硬件CPU/GPU/边缘特性调整核心参数并根据场景开发/中小企业/企业设计合理的服务架构特别是企业级部署中引入网关、监控和水平扩展。性能优化是关键围绕量化、KV缓存、批处理三大核心结合资源调度与监控在模型质量、响应速度、吞吐量和资源成本之间找到最佳平衡点。扩展定制是进阶通过插件化思路、组件替换需权衡成本和API中间件封装可以突破Ollama原生能力的边界构建完全符合企业特定需求的大模型服务中台。未来随着Ollama生态的不断成熟我们期待其在高性能推理后端集成、更细粒度的资源调度以及原生企业级功能如多租户、计费方面有更深入的发展。在此之前本文提供的实战指南将助力团队最大化Ollama在当前阶段的潜力构建稳定、高性能的私有化大模型服务。 感谢您耐心阅读到这里 如果本文对您有所启发欢迎 点赞 收藏 分享给更多需要的伙伴。️ 期待在评论区看到您的想法, 共同进步。 关注我持续获取更多干货内容 我们下篇文章见

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2522828.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…