CANN/DeepSeek-OCR-2推理适配
DeepSeek-OCR-2【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer项目简介基于 vLLM-Ascend 的 DeepSeek-OCR-2 模型昇腾 NPU 推理适配方案支持高精度文档 OCR 识别与 Markdown 格式输出此适配任务由智子芯元 KernelCAT 智能体工具自动化完成。功能特性✅ NPU 原生 MOE 算子支持✅ 非侵入式适配方案✅ 模块化设计易于维护和升级✅ 支持单图、PDF 文档和批量评估✅ 结构化 Markdown 输出硬件要求项目要求昇腾设备Atlas 800I/T A2内存≥ 32GB磁盘≥ 50GB (模型存储)快速开始基础环境本项目基于 vllm-ascend v0.8.5rc1 开发可以使用以下镜像docker pull quay.io/ascend/vllm-ascend:v0.8.5rc1创建容器docker run -it -d --nethost --shm-size512g \ --privileged \ --name ds-ocr-2 \ --device/dev/davinci_manager \ --device/dev/hisi_hdc \ --device/dev/devmm_svm \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \ -v /usr/local/sbin:/usr/local/sbin:ro \ -v /data/model_weight:/data \ quay.io/ascend/vllm-ascend:v0.8.5rc1 /bin/bash模型下载pip install modelscope -i https://mirrors.huaweicloud.com/repository/pypi/simple # 下载模型 modelscope download --model deepseek-ai/DeepSeek-OCR-2 --local_dir /data/models/DeepSeek-OCR-2参数说明--model: 模型名称--local-dir: 模型存储路径项目部署将本项目包下载后放在容器内/workspace目录下或通过git clone进行拉取。cd /workspace git clone https://gitcode.com/cann/cann-recipes-infer.git cd cann-recipes-infer/contrib/vllm-deepseek-ocr-2执行转换脚本./convert_to_npu.sh脚本会自动安装 Python 依赖包einops, addict, easydict, triton-ascend, PyMuPDF, img2pdf克隆 DeepSeek-OCR-2 源码应用 NPU 适配补丁输出到deepseek_ocr2_npu/目录配置文件修改cd deepseek_ocr2_npu # 初始化环境变量 source set_env.sh # 编辑 config.py 修改以下参数 vi config.py # - MODEL_PATH: 模型路径如 /data/models/DeepSeek-OCR-2 # - INPUT_PATH: 输入文件路径 # - OUTPUT_PATH: 输出文件路径运行推理# 图片流式输出 python run_dpsk_ocr2_image.py # PDF 处理 python run_dpsk_ocr2_pdf.py # 图片批量处理 python run_dpsk_ocr2_eval_batch.py注意使用批量处理脚本时config.py中输入图片路径应为图片文件夹路径性能测试单卡python benchmark.py --image /path/to/image.jpg --concurrent 1,8,16 --warmup 2 --rounds 3参数说明参数说明默认值--image图片文件或目录必填--concurrent并发数列表1,8,16--warmup预热轮数2--rounds测试轮数5--max-tokens最大输出 token8192--gpu-mem显存利用率0.85--output结果输出文件benchmark_results.txt性能数据并发数输出吞吐 (tokens/s)总吞吐 (tokens/s)140.5096.784106.50292.688212.52584.0232413.681136.8164486.621337.26100550.451512.68适配内容MOE 算子: 使用 vllm-ascend 的fused_experts替换 CUDA 实现注意力机制: 注释flash_attn使用 SDPANPU 配置:ENFORCE_EAGERTrue、gpu_memory_utilization0.85项目结构vllm-deepseek-ocr-2/ ├── convert_to_npu.sh # 一键转换脚本 ├── README.md ├── LICENSE └── npu_patch/ ├── deepseek_ocr2_npu.py # NPU MOE 补丁 └── set_env.sh # 环境初始化故障排除问题解决方案指定 NPU 设备export ASCEND_RT_VISIBLE_DEVICES0KernelCAT内测申请KernelCAT限时免费内测中欢迎体验https://kernelcat.cn项目参考DeepSeek AI - DeepSeek-OCR-2 模型vLLM - 高效 LLM 推理框架vLLM-Ascend - vLLM 昇腾适配Meta SAM - 视觉编码器许可证本项目采用 MIT License 开源许可。本项目包含以下第三方代码SAM (Meta) - Apache License 2.0DeepSeek-VL2 (DeepSeek AI) - MIT LicensevLLM - Apache License 2.0【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2597900.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!