DeepSeek冲击(含本地化部署实践)

news2025/5/18 8:46:13

DeepSeek无疑是春节档最火爆的话题,上线不足一月,其全球累计下载量已达4000万,反超ChatGPT成为全球增长最快的AI应用,并且完全开源。那么究竟DeepSeek有什么魔力,能够让大家趋之若鹜,他又将怎样改变世界AI格局和我们的生活,本篇文章将进行简要解析。

DeepSeek与ChatGPT对比

说到人工智能就不得不提OpenAI和ChatGPT,这是绕不开的话题,要分析DeepSeek的实力,最简单的方式就是跟ChatGPT进行对比。

模型分类

ChatGPT目前有两种大模型,分别是面向普通用户,解决日常应用问题的4-OMNI,以及面向专业用户,处理深度思考问题的O1,DeepSeek与之对标的分别是V3模型以及R1模型。

实用效果

据我目前的使用体验下来,DeepSeek的实际体验效果完全不输ChatGPT,甚至在解决数学、物理和推理问题方面表现出色,响应速度比ChatGPT还要快,且能够完整地展示其思考和给出答案的过程,例如最经典的,让绝大多数AI翻车的“1.11和1.9谁大?”的问题,ChatGPT给出的回答是:

前言不搭后语,而反观DeepSeek:

可以看到DeepSeek不仅给出了正确答案,而且展示了详细的解题思路,甚至有最后的验证。我也测试了许多其他的问题,DeepSeek完全不拉垮,相对于ChatGPT,他在中文领域的问题理解和处理更加到位,使用体验非常好。

这无疑也使得苹果公司柳暗花明又一村,为弥补apple intelligence上在中国区无法使用ChatGPT提供了完美的解决方案。

成本

成本分为两部分:硬件成本和训练成本。AI大模型构建算法绝大部分都是基于公开的论文,所以市场上的大模型,底层逻辑都大同小异,训练数据也来自于互联网,所以主要的成本体现在硬件上,也就是提供AI算力的芯片,自从AI大爆发以来,大家的共识就是堆砌的芯片越多,大模型的表现就越优秀。我先简单介绍一下为什么提升AI的性能就要堆砌大量的芯片。

AI算力的芯片领域是英伟达(Nvidia)一家独大,芯片价格非常昂贵,目前该公司最先进的B200芯片单张的价格就高达4万美金,而且对于AI公司来说你还必须买,因为芯片的产能有限,如果你不抢就会被竞争对手买走,导致你的大模型算力不如他的。

英伟达公司为自家的芯片研发了一种叫CUDA的核心的技术,其全名叫做Compute Unified Device Architecture(统一计算设备架构)。

 

这是一种并行计算平台和编程模型。开发者通过它,可以间接利用GPU的处理能力,大幅提升计算性能。简单的说,CUDA核心就像是一间间的海水提纯工厂,它可以把如海洋般的GPU算力转换成AI开发者可以直接使用的AI算力,越多的CUDA核心数量就意味着更大的AI算力。

这也就是为什么AI行业越发展,芯片的需求量越大,英伟达的市值就越高。美国也多次通过英伟达“锁算力”以及限制芯片出口,阻碍中国的AI发展。AI行业的发展被一家公司扼住喉咙的现象显然极度不合理,英伟达可谓是真正的万恶之源。

OpenAI不受限制,所以囤积了大量的英伟达芯片,训练ChatGPT据传用到了5万张英伟达的芯片,而DeepSeek作为中国公司,在这方面相比自然相去甚远。

DeepSeek冲击

由于CUDA技术被英伟达牢牢掌握,所以间接提高了所有AI大模型的使用成本,阻碍了AI的发展。以ChatGPT为例,4-OMNI和O1两个大模型的研发成本高达数十亿美金,免费用户使用有诸多限制,付费用户每月20美金,专业用户每月200美金,如果企业想要接入OpenAI的人工智能服务,调用API做客服等用途,则更是按字符收费,虽然比人工客服省钱,但也是一笔不小的开销。这些收入中,绝大多数都是用来平衡购买芯片带来的巨大成本。

DeepSeek之所以引起全球瞩目,就是因为他在“芯片”受限的前提下,达到了与ChatGPT近似的使用体验,甚至在某些领域还远远超过了。OpenAI和它的母公司微软囤积了大量的高端芯片,而DeepSeek手里的芯片,不论从数量还是质量上都不占优势,甚至可以说远远落后。

在深度解析DeepSeek开源的模型代码之后,研究人员发现,DeepSeek之所以能够绝地反击,秘诀就在于他绕过了CUDA核心的限制,使用了完全创新的技术训练大模型,直接利用英伟达的底层技术调用了GPU的算力,相当于能直接使用如大海般的GPU资源,所以才能使用低端的芯片,在极短的时间内完成了模型的训练,达到了与ChatGPT近似的效果。

而且此技术成功解除了AI模型对英伟达芯片的依赖,使DeepSeek可以使用华为的芯片进行训练。DeepSeek服务调用的费用只有ChatGPT的十分之一,具有非常高的性价比和广阔的应用前景。

整体来说,DeepSeek用了很少的钱,很低端的工具,就把美国投入上百亿美元的事给办了。自从DeepSeek爆火之后,市场普遍认为英伟达的芯片估值过高,要实现高性能的AI并不需要如此之贵的芯片,最高端的芯片也并不值那个价钱,这直接导致英伟达的股价当天就暴跌17%,创造了美国股市历史上单日最大跌幅,截至目前英伟达市值蒸发近6000亿美元。

技术曝光的第二天,英伟达,微软和亚马逊的计算平台都宣布接入DeepSeek模型,堪称AI界的“斯普特尼克时刻”,就如同当年苏联率先成功发射人造卫星时一样,让一直以为自己在技术上遥遥领先的西方世界陷入了一片混乱,世界AI市场的格局就此改变。

本地化部署R1模型

DeepSeek虽然好,但是用过的同学都知道他有个致命的问题,就是万恶的资本主义经常组织针对DeepSeek的网络攻击,导致使用时出现“服务器繁忙的问题”。

为了避免被攻击,降低延迟和卡顿,规避共享敏感信息的风险,同时更灵活的进行微调和实验,我们可以把R1模型部署到本地。

安装Ollama

首先登陆Ollama官网:ollama.com/。打开官网,然后点击下…

拉取 DeepSeek R1 模型

然后打开Ollama 的模型列表: ollama.com/library/dee… ,搜索到DeepSeek R1:

输入ollama list可以查看安装的模型。

此时已经可以在控制台使用R1模型进行问答了。

包装GUI

只能在命令行中使用既不美观也特别的不方便,所以我们可以使用现成的GUI进行包装,相当于包上图形用户界面。这里以Cherry Studio为例,下载对应版本后打开

在设置中选择模型服务,选中Ollama

填入对应的本地模型信息:

然后就可以使用了!希望本篇文章能够帮到大家!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2300282.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CF 144A.Arrival of the General(Java实现)

题目分析 一个n个身高数据,问最高的到最前面,最矮的到最后面的最短交换次数 思路分析 首先,如果数据有重复项,例如示例二中,最矮的数据就是最后一个出现的数据位置,最高的数据就是最先出现的数据位置&…

set的使用(c++)

STL里面已经为我们实现了两种红黑树,一种是存储关键字的set,另一种是存储双关键字的map,今天主要来了解set,无论是set还是map后面都跟一个multi,它们区别是set 不能存相同元素, multiset 可以存相同的元素&…

IDEA单元测试插件 SquareTest 延长试用期权限

SquareTest是一款强大的IDEA单元测试生成插件工具,具体使用方法就不过多介绍了,这里主要介绍变更试用期,方便大家使用 配置信息 我的电脑安装前提配置条件 IntelliJ IDEA 2023.2windows 系统 软件安装 IntelliJ IDEA 直接安装插件Squar…

25/2/17 <嵌入式笔记> 桌宠代码解析

这个寒假跟着做了一个开源的桌宠,我们来解析下代码,加深理解。 代码中有开源作者的名字。可以去B站搜着跟着做。 首先看下main代码 #include "stm32f10x.h" // Device header #include "Delay.h" #include &quo…

油田安全系统:守护能源生命线的坚固壁垒

油田安全系统:不可或缺的能源护盾 在能源领域,油田作为国家重要的能源供应基地,其安全生产的重要性不言而喻。油田安全系统犹如一道坚固的护盾,全方位守护着人员生命、企业财产以及生态环境,是油田平稳运行与可持续发展…

【故障处理】- 执行命令crsctl query crs xxx一直hang

【故障处理】- 执行命令crsctl query crs xxx一直hang 一、概述二、故障处理三、解决方法 一、概述 Oracle RAC环境中,遇到执行crsctl query crs xxx等相关命令不返回任何结果,一直hang在那里。系统下执行命令ps -ef |grep crsctl query crs softwarever…

JMeter工具介绍、元件和组件的介绍

Jmeter功能概要 JDK常用文件目录介绍 Bin目录:存放可执行文件和配置文件 Docs目录:是Jmeter的API文档,用于开发扩展组件 printable_docs目录:用户帮助手册 lib目录:存放JMeter依赖的jar包和用户扩展所依赖的Jar包…

DeepSeek 引领AI 大模型时代,服务器产业如何破局进化?

2025 年 1 月,DeepSeek - R1 以逼近 OpenAI o1 的性能表现,在业界引起轰动。其采用的混合专家架构(MoE)与 FP8 低精度训练技术,将单次训练成本大幅压缩至 557 万美元,比行业平均水平降低 80%。这一成果不仅…

安卓burp抓包,bypass ssl pinning

好久好久没有发东西了。主要是懒。。。 这几天在搞apk渗透,遇到了burp无法抓包问题,觉得可以写下来。 问题描述 1. 一台安卓手机,装了面具,可以拿到root 2. 电脑上有burp,设置代理 3.手机和电脑连同一个网段&…

服务器中部署大模型DeepSeek-R1 | 本地部署DeepSeek-R1大模型 | deepseek-r1部署详细教程

0. 部署前的准备 首先我们需要足够算力的机器,这里我在vultr中租了有一张A16显卡一共16GB显存的服务器作为演示。部署的模型参数为14b的。如果需要部署满血版本671b的,需要更大的算力支持,这里由于是个人资金有限,就演示14b的部署…

rust学习笔记2-rust的包管理工具Cargo使用

首先先解决一个配置文件,目前rust版本升级后,config已经改成 config.toml 内容也做了如下调整 [source.crates-io] replace-with tuna[source.tuna] registry "https://mirrors.tuna.tsinghua.edu.cn/git/crates.io-index.git" 1.Rust 编程…

DeepSeek + Vue实战开发

利用DeepSeek V3模型、siliconflow大模型一站式云服务平台以及vue3.0实现一个在线人工智能客服对话系统。 因为deepseek官网的api密钥使用起来比较缓慢,所以可以使用第三方的,具体操作请自行查阅资料。 siliconflow官网 SiliconFlow, Accelerate AGI …

【数据结构】(8) 二叉树

一、树形结构 1、什么是树形结构 根节点没有前驱,其它节点只有一个前驱(双亲/父结点)。所有节点可以有 0 ~ 多个后继,即分支(孩子结点)。每个结点作为子树的根节点,这些子树互不相交。 2、关于…

Web 后端 请求与响应

一 请求响应 1. 请求(Request) 客户端向服务器发送的HTTP请求,通常包含以下内容: 请求行:HTTP方法(GET/POST等)、请求的URL、协议版本。 请求头(Headers):…

CEF132 编译指南 Linux 篇 - CEF 编译实战:构建 CEF(六)

1. 引言 经过前几篇的精心准备,我们已经完成了所有必要的环境配置和源码下载。现在,我们将进入激动人心的 CEF 编译阶段。本篇将详细指导你在 Linux 系统上编译 CEF 6834 分支(对应 Chromium 132 版本),包括创建项目文…

【Spring+MyBatis】_图书管理系统(上篇)

目录 1. MyBatis与MySQL配置 1.1 创建数据库及数据表 1.2 配置MyBatis与数据库 1.2.1 增加MyBatis与MySQL相关依赖 1.2.2 配置application.yml文件 1.3 增加数据表对应实体类 2. 功能1:用户登录 2.1 约定前后端交互接口 2.2 后端接口 2.3 前端页面 2.4 单…

【苍穹外卖】学习

软件开发整体介绍 作为一名软件开发工程师,我们需要了解在软件开发过程中的开发流程, 以及软件开发过程中涉及到的岗位角色,角色的分工、职责, 并了解软件开发中涉及到的三种软件环境。那么这一小节,我们将从 软件开发流程、角色…

DeepSeek-V2-技术文档

DeekSeek-v2-简述 1. DeepSeek-V2是什么? DeepSeek-V2是一个基于混合专家(Mixture-of-Experts,简称MoE)架构的语言模型。它是一种新型的人工智能模型,专门用于处理自然语言处理(NLP)任务,比如文本生成、翻译、问答等。与传统的语言模型相比,DeepSeek-V2在训练成本和…

Linux中线程创建,线程退出,线程接合

线程的简单了解 之前我们了解过 task_struct 是用于描述进程的核心数据结构。它包含了一个进程的所有重要信息,并且在进程的生命周期内保持更新。我们想要获取进程相关信息往往从这里得到。 在Linux中,线程的实现方式与进程类似,每个线程都…

什么是蒸馏技术

蒸馏技术(Knowledge Distillation, KD)是一种模型压缩和知识迁移的方法,旨在将一个复杂模型(通常称为“教师模型”)的知识转移到一个小型模型(通常称为“学生模型”)中。蒸馏技术的核心思想是通…