DeepSeek R1 模型小版本升级,DeepSeek-R1-0528都更新了哪些新特性?

news2025/6/3 21:26:18

DeepSeek-R1‑0528 技术剖析:思维链再进化,推理性能飙升


目录

  1. 版本概览
  2. 深度思考能力再升级
  3. 基准测试成绩
  4. 功能与体验更新
  5. API 变动与示例
  6. 模型开源与下载
  7. 结语

版本概览

DeepSeek 团队今日发布 DeepSeek‑R1‑0528 —— 基于 DeepSeek V3 Base(2024‑12) 的小版本升级。
无论是官网、App、小程序还是 API,打开 “深度思考” 即可直接体验。

  • 升级包体:后训练权重 + tokenizer 配置
  • 上下文长度:产品端 64 K,开源版 128 K
  • 许可证:MIT License,可二次蒸馏、商用

深度思考能力再升级

在保持 685 B 参数规模(其中 14 B 为 MTP 层)不变的前提下,官方追加了算力投入以强化推理链(Chain‑of‑Thought, CoT)。
关键改动:

模块旧版新版 0528变化
后训练步数1.4×+40 %
推理深度平均 12 K tokens/题23 K tokens/题+92 %
AIME 2025 准确率70 %87.5 %

动机:让模型在生成最终答案前,倾向于输出更完整的推理链,从而减少“拍脑袋”式的幻觉。


基准测试成绩

DeepSeek‑R1‑0528 Benchmark

测试条件:64 K 上下文,Humanity’s Last Exam 仅计入纯文本题。

  • 数学:AIME‑2025 87.5 %(国产第一,逼近 o3/Gemini‑2.5‑Pro)
  • 代码:HumanEval‑Plus 91 %
  • 综合逻辑:MMLU 87.2

此外,官方将思考链蒸馏到 Qwen3‑8B,得到 DeepSeek‑R1‑0528‑Qwen3‑8B,在 AIME‑2024 仅次于原版 R1‑0528,超过 Qwen3‑8B (+10 %),逼平 Qwen3‑235B。

AIME 2024 8B 对比


功能与体验更新

1. 幻觉率降低 ≈ 50 %

  • 改写、摘要、阅读理解场景更加可信
  • 支持 JsonOutput,极大提高结构化回答的可解析性

2. 创意写作

  • 议论文/小说/散文等 篇幅更长、框架更完整
  • 文风更贴近人类偏好

3. 工具调用(Function Calling)

  • Thinking 阶段仍禁用工具,推理完再触发
  • Tau‑Bench:Airline 53.5 % / Retail 63.9 % ≈ OpenAI o1‑high

工具调用示例

4. 生成式前端开发

  • HTML/CSS/JS 一键生成现代组件
  • 典型场景:低代码平台、原型设计、组件 DEMO

前端示例


API 变动与示例

新版 API Endpoint 与参数名完全兼容旧版,仅 max_tokens 语义改变 —— 约束 “单次输出总长度(含思考链)”

参数默认上限
max_tokens32 K64 K

Function Calling 快速示例 (Python + 官方 SDK)

import deepseek

client = deepseek.Reasoning(api_key="YOUR_KEY")

functions = [
    {
        "name": "get_weather",
        "description": "天气查询",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string"}
            },
            "required": ["city"]
        }
    }
]

response = client.chat.completions.create(
    model="deepseek-r1",
    messages=[{"role": "user", "content": "广州明天穿短袖合适吗?"}],
    functions=functions,
    json_output=True,          # 👈 新增参数
    max_tokens=32768           # 注意:含思考链
)

print(response.choices[0].message)

完整指南见官方文档:https://api-docs.deepseek.com/zh-cn/guides/reasoning_model


模型开源与下载

资源链接
ModelScopehttps://modelscope.cn/models/deepseek-ai/DeepSeek-R1-0528
Hugging Facehttps://huggingface.co/deepseek-ai/DeepSeek-R1-0528

私有化部署仅需替换 checkpointtokenizer_config.json,无需重下 Base。


结语

DeepSeek‑R1‑0528 用更深的思考链把 国产推理性能推进到新高度:

  • 数学、逻辑逼近国际旗舰
  • 减幻觉、增工具、写作 & 代码双提升
  • 全链路 MIT 开源,蒸馏友好

如果你在 学术研究 追求可解释推理,或在 工业场景 需要大模型私有部署,都值得立即上手体验!

Star & Fork 不迷路,欢迎交流你在落地过程中的踩坑与最佳实践。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2393656.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SQL正则表达式总结

这里写目录标题 一、元字符二、正则表达函数1、 regexp_like(x,pattern[,match_option])2、 regexp_instr(x,pattern[,start[,occurrence[,return_option[, match_option]]]]) 3、 REGEXP_SUBSTR(x,pattern[,start[,occurrence[, match_option]]]) 4、 REGEXP_REPLACE(x,patter…

力扣经典算法篇-13-接雨水(较难,动态规划,加法转减法优化,双指针法)

1、题干 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 1: 输入:height [0,1,0,2,1,0,1,3,2,1,2,1] 输出:6 解释:上面是由数组 [0,1,0,2,1,0,1,3…

STM32 -- USB虚拟串口通信

本篇操作: 通过CubeMX Keil,配置STM32作为USB设备端,与电脑上位机进行通信(CDC);通用带USB功能的 STM32 芯片 (如F1、F4等,系统时钟配置不同,代码通用)。 目录 一、 S…

uni-app开发特殊社交APP

uni-app开发特殊社交APP 目录 1.展示APP功能 2.展示项目结构 3.关于我的GitHub 引言 博主最近自己在GitHub上面上传了一个关于社交软件的项目(该项目早已开发完毕), 这个社交软件比较特殊, 被称之为blind-date, blind-date 是基于 uni-…

Linux中Shell脚本的常用命令

一、设置主机名称 1、通过修改系统文件来修改主机名称 [rootsakura1 桌面]# vim /etc/hostname sakura /etc/hostname:Linux 系统中存储主机名的配置文件。修改完文件后,在当前的shell中是不生效的,需要关闭当前shell后重新开启才能看到效…

RabbitMQ项目实战

先参考文章:(必看) 06-MQ基础_mq服务-CSDN博客 07-MQ高级(幂等性)-CSDN博客 https://cloud.iocoder.cn/message-queue/rabbitmq/#_2-0-%E5%BC%95%E5%85%A5%E4%BE%9D%E8%B5%96%E4%B8%8E%E9%85%8D%E7%BD%AE 1、Rabbi…

安卓开发用到的设计模式(3)行为型模式

安卓开发用到的设计模式(3)行为型模式 文章目录 安卓开发用到的设计模式(3)行为型模式1. 命令模式(Command Pattern)2. 策略模式(Strategy Pattern)3. 观察者模式(Observ…

尚硅谷redis7 90-92 redis集群分片之集群扩容

90 redis集群分片之集群扩容 三主三从不够用了,进行扩容变为4主4从 问题:1.新建两个redis实例,怎么加入原有集群?2.原有的槽位分3段,又加进来一个槽位怎么算? 新建6387、6388两个服务实例配置文件新建后启…

离散化算法的二分法应用

我们思考一个问题:其实这里的二分法回归本源也是基于下标映射的原理,只是实现是借助二分的形式。 在排序好的数组中对目标数值进行二分搜索,在 O(logn) 的时间复杂度内找到该数值是整体数据中的第几个。 具体的我们可以如下操作: …

半导体厂房设计建造流程、方案和技术要点-江苏泊苏系统集成有限公司

半导体厂房设计建造流程、方案和技术要点-江苏泊苏系统集成有限公司 半导体厂房的设计建造是一项高度复杂、专业性极强的系统工程,涉及洁净室、微振动控制、电磁屏蔽、特殊气体/化学品管理等关键技术。 一、设计建造流程: 1.需求定义与可行性分析 &a…

一种通用图片红色印章去除的工具设计

朋友今天下午需要处理个事情,问我有没有什么好的办法能够去除,核心问题是要去除图片上的印章。记得以前处理过类似的需求,photoshop操作比较简单,本质是做运算。这种处理方式有很多,比如现在流行的大模型,一…

RapidOCR集成PP-OCRv5_det mobile模型记录

该文章主要摘取记录RapidOCR集成PP-OCRv5_mobile_det记录,涉及模型转换,模型精度测试等步骤。原文请前往官方博客: https://rapidai.github.io/RapidOCRDocs/main/blog/2025/05/26/rapidocr%E9%9B%86%E6%88%90pp-ocrv5_det%E6%A8%A1%E5%9E%8B…

Dify理论+部署+实战

概述 一个功能强大的开源AI应用开发平台,融合后端即服务(Backend as Service)和LLMOps理念,使开发者能够快速搭建生产级的生成式AI应用。 核心优势 直观的用户界面:提供简洁明了的操作界面,使得用户能够…

内网穿透系列五:自建SSH隧道实现内网穿透与端口转发,Docker快速部署

​以下是对这个自建SSH隧道工具的简单介绍: 一款基于OpenSSH构建的内网穿透与端口转发工具,通过SSH隧道技术实现支持所有TCP协议通信,包括SSH、HTTP、HTTPS等各类应用提供灵活部署方式,特别支持Docker容器化快速部署开源工具地址…

桥梁进行3D建模时的数据采集、存储需求及技术参数

桥梁进行3D建模时的数据采集、存储需求及技术参数 1公里桥梁进行3D建模时的数据采集、存储需求及技术参数的详细分析 1. 照片数量估算 关键影响因素 桥梁类型:梁桥/拱桥/斜拉桥(结构复杂度不同) 建模精度:工程级(1-…

Transformer架构技术学习笔记:从理论到实战的完整解析

引言:重新定义序列建模的里程碑 2017年,Vaswani等人在论文《Attention Is All You Need》中提出的Transformer架构,彻底改变了自然语言处理领域的游戏规则。与传统RNN/LSTM相比,Transformer具有三大革命性特征: 全注意…

1、python代码实现与大模型的问答交互

一、基础知识 1.1导入库 torch 是一个深度学习框架,用于处理张量和神经网络。modelscope是由阿里巴巴达摩院推出的开源模型库。 AutoTokenizer 是ModelScope 库的类,分词器应用场景包括自然语言处理(NLP)中的文本分类、信息抽取…

Java开发经验——阿里巴巴编码规范实践解析6

摘要 本文深入解析了阿里巴巴编码规范在数据库设计和Java开发中的实践应用。详细阐述了数据库字段命名、类型选择、索引命名等规范,以及Java POJO类的对应规范。强调了字段命名的重要性,如布尔字段命名规则、表名和字段名的命名禁忌等。同时&#xff0c…

工业自动化实战:基于 VisionPro 与 C# 的机器视觉 PLC 集成方案

一、背景介绍 在智能制造领域,机器视觉检测与 PLC 控制的无缝集成是实现自动化生产线闭环控制的关键。本文将详细介绍如何使用 C# 开发上位机系统,实现 Cognex VisionPro 视觉系统与西门子 S7 PLC 的数据交互,打造高效、稳定的工业检测方案。…

C++ —— B/类与对象(中)

🌈个人主页:慢了半拍 🔥 创作专栏:《史上最强算法分析》 | 《无味生》 |《史上最强C语言讲解》 | 《史上最强C练习解析》|《史上最强C讲解》 🏆我的格言:一切只是时间问题。 ​ 目录 一、类的6个默认成员…