DeepSeek开源周Day5: 3FS存储系统与AI数据处理新标杆

news2025/7/13 9:23:17

项目地址:

  • GitHub - deepseek-ai/3FS: A high-performance distributed file system designed to address the challenges of AI training and inference workloads.
  • GitHub - deepseek-ai/smallpond: A lightweight data processing framework built on DuckDB and 3FS.

开源日历:2025-02-24起 每日9AM(北京时间)更新,持续五天 (5/5)!

引言

在AI技术迅猛发展的浪潮中,DeepSeek以「开源周」形式连续五天发布五大核心基础设施项目,引发行业震动。最终日压轴登场的 Fire-Flyer File System(3FS) 和 smallpond 数据处理框架,更是将存储与计算性能推向新高度。与此同时,OpenAI仓促推出GPT-4.5却因天价API引发争议。本文将全面解析这场技术盛宴的核心突破。


一、颠覆AI训练的分布式存储系统 - 3FS

核心架构解析

3FS架构图

3FS(Fire-Flyer File System) 是专为AI训练设计的分布式文件系统,其创新架构包含三大核心:

  1. 解耦式存储资源池
    整合上千块NVMe SSD(固态硬盘)与RDMA(远程直接内存访问)网络,形成全局存储资源池。计算节点通过高速网络直接访问数据,突破本地存储限制。
  2. CRAQ强一致性协议
    采用链式复制查询分配技术(Chain Replication with Apportioned Queries),确保跨节点数据访问一致性,同时通过读写分离优化性能。
  3. 无状态元数据服务
    基于FoundationDB事务型KV存储构建元数据层,实现毫秒级文件定位,支持10万级QPS(每秒查询量)。

性能实测数据

测试场景配置详情性能表现
峰值吞吐测试180存储节点×16块14TB SSD,500+计算节点通过200Gbps RDMA访问6.6 TiB/s读吞吐量
GraySort排序测试25存储节点处理110.5TiB数据30分钟完成,3.66TiB/min
LLM推理加速KVCache(键值缓存)存储于3FS替代GPU内存峰值40GiB/s读取速度

四大应用场景突破

  1. 数据预处理流水线
    支持PB级数据集的分层目录管理,加速特征工程处理。
  2. 训练数据实时加载
    允许Dataloader跨节点随机访问,无需预排序或缓存。
  3. 分布式检查点保存
    千卡训练任务可30秒内完成模型状态保存。
  4. 推理KVCache外置
    将Transformer的键值对缓存移至3FS,释放30% GPU显存。

二、轻量级大数据处理利器 - smallpond

技术架构亮点

smallpond性能图

基于 DuckDB列式数据库 与3FS构建的轻量框架,实现三大创新:

  1. 无状态计算范式
    摒弃Hadoop/Spark的常驻服务模式,通过Python脚本直接调度计算资源。
  2. 智能数据分片
    自动将PB级数据集划分为8192个分区,结合3FS实现并行处理。
  3. 混合执行引擎
    本地小数据集使用DuckDB单机模式,大规模任务自动切换分布式计算。

实战代码示例

import smallpond
sp = smallpond.init() 

# 读取3FS中的Parquet数据集
df = sp.read_parquet("3fs://dataset/images-2024")

# 分布式SQL处理
df = sp.partial_sql("""
    SELECT category, AVG(file_size) AS avg_size 
    FROM {0} 
    WHERE resolution > 1080
    GROUP BY category
""", df)

# 结果写入并转换为Pandas
df.write_parquet("3fs://results/image_stats")
print(df.to_pandas().describe())

性能对比测试

框架110TB排序耗时节点数量硬件成本
Hadoop4.2小时200节点$18,000
Spark2.1小时150节点$15,000
smallpond30分钟75节点$7,200

三、OpenAI GPT-4.5:高情商背后的天价成本

核心升级点

GPT-4.5对话示例

尽管宣称在以下方面取得突破,但定价引发开发者强烈反弹:

  1. 情感理解增强
    通过情绪识别模型(Sentiment-aware RLHF)优化对话共情能力
  2. 推理精度提升
    数学问题准确率从GPT-4的82.3%提升至89.1%
  3. 长上下文优化
    支持128K token上下文记忆,遗忘率降低37%

价格对比表

模型输入价格(美元/百万token)输出价格对比DeepSeek v3
GPT-4o5.015.05-10倍
GPT-4.575.0150.0150-280倍
DeepSeek v30.271.0基准

四、开源周全景回顾

DeepSeek开源周技术矩阵:

发布日期项目名称关键技术点性能提升
Day1FlashMLA动态序列长度优化推理速度提升3.2倍
Day2DeepEP专家并行通信库MoE训练效率提升40%
Day3DeepGEMMFP8混合精度计算矩阵运算功耗降低65%
Day4DualPipe/EPLB双向流水线并行+负载均衡千卡训练稳定性提升90%
Day53FS+smallpond分布式存储+轻量计算框架数据吞吐提升10倍

五、行业影响与未来展望

DeepSeek的开源策略正在重塑AI基础设施生态:

  1. 技术民主化加速
    企业可基于开源组件构建完整训练体系,无需依赖AWS/GCP等云厂商专属方案。
  2. 硬件利用率飞跃
    3FS使单GPU卡日均训练任务从3次提升至8次,显著降低算力成本。
  3. 开源模型新机遇
    开发者社区已涌现基于3FS的类Sora视频生成项目VidSeek。

行业分析师预测,Google、Meta等巨头或将在6个月内推出对标方案,而xAI等初创公司可能直接基于DeepSeek生态进行二次开发。


参考引用

  1. DeepSeek开源最后一天
  2. 最后一天!DeepSeek开源3FS系统
  3. GitHub - deepseek-ai/3FS: A high-performance distributed file system designed to address the challenges of AI training and inference workloads.
  4. GitHub - deepseek-ai/smallpond: A lightweight data processing framework built on DuckDB and 3FS.

专业术语解释

  • Fire - Flyer File System(3FS)
    专为AI训练设计的分布式文件系统,通过解耦式存储资源池整合NVMe SSD与RDMA网络形成全局存储资源池,利用CRAQ强一致性协议确保数据访问一致性并优化性能,借助无状态元数据服务实现毫秒级文件定位和高QPS。类似于为AI训练打造了一个超级仓库,能快速准确地提供数据。
  • NVMe SSD(固态硬盘)
    一种高速存储设备,在3FS中作为存储资源被整合到全局存储资源池,为AI训练提供快速的数据存储和读取能力。如同仓库里快速存取货物的货架。
  • RDMA(远程直接内存访问)
    一种网络技术,用于3FS中计算节点与存储资源池之间的高速数据访问,突破本地存储限制。类似一条高速通道,让数据快速在不同地方传输。
  • CRAQ强一致性协议(Chain Replication with Apportioned Queries)
    采用链式复制查询分配技术,保证3FS跨节点数据访问的一致性,并通过读写分离优化性能。就像一个严格的规则制定者,确保数据在不同节点间的访问都准确无误且高效。
  • 无状态元数据服务
    基于FoundationDB事务型KV存储构建的元数据层,在3FS中实现毫秒级文件定位,支持高QPS。好比一个智能导航系统,能快速找到文件在仓库中的位置。
  • QPS(每秒查询量)
    衡量系统处理能力的指标,3FS的无状态元数据服务可支持10万级QPS,代表其每秒能处理大量的文件查询请求。类似一个服务员每秒能接待多少顾客的询问。
  • GraySort排序测试
    一种用于测试系统数据处理能力的测试场景,在3FS的性能测试中,25个存储节点能在30分钟内处理110.5TiB数据。就像对仓库货物整理能力的一次考验。
  • LLM推理加速
    通过将KVCache存储于3FS替代GPU内存,提高大语言模型(LLM)推理速度,在3FS中能达到峰值40GiB/s的读取速度。如同给推理过程找到了一条捷径。
  • KVCache(键值缓存)
    在LLM推理中,将Transformer的键值对缓存移至3FS可释放30% GPU显存。类似于把一些临时数据存放到外部仓库,腾出空间给更重要的工作。
  • smallpond
    基于DuckDB列式数据库与3FS构建的轻量级大数据处理框架,采用无状态计算范式、智能数据分片和混合执行引擎等创新技术。像一个小巧灵活的工具,能高效处理大数据。
  • DuckDB列式数据库
    smallpond框架的基础之一,提供单机数据处理能力,在smallpond中用于本地小数据集处理或作为大规模任务分布式计算的基础组件。类似一个小型加工厂,处理小规模的数据。
  • 无状态计算范式
    smallpond摒弃Hadoop/Spark的常驻服务模式,通过Python脚本直接调度计算资源。就像不需要长期驻扎的团队,有任务时直接调用资源完成工作。
  • 智能数据分片
    smallpond自动将PB级数据集划分为8192个分区,结合3FS实现并行处理,提高数据处理效率。类似于把一大块工作分成许多小块,同时进行处理。
  • 混合执行引擎
    smallpond本地小数据集使用DuckDB单机模式,大规模任务自动切换分布式计算。如同一个智能的工人,遇到小任务自己做,大任务就叫上其他人一起做。
  • Sentiment - aware RLHF(情绪识别模型)
    OpenAI用于优化GPT - 4.5对话共情能力的技术,通过该模型增强情感理解。就像给模型安装了一个“情感探测器”,让它更懂人类情感。

DeepSeek开源周不仅展示了中国AI公司的技术实力,更重要的是推动行业进入「开放创新」新阶段。当6.6TiB/s的存储吞吐遇上社区智慧,或许下一次AI革命的火花就诞生于某个开发者的GitHub仓库。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2307886.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FastAPI系列:如何配置跨域访问(CORS)

默认情况下,FastAPI应用程序不允许来自不同来源的请求。当你有一个前端应用程序与后端API通信,并且它们托管在不同的域或端口上时,在FastAPI中允许来自不同来源的请求是一种常见的场景。这被称为CORS(跨域资源共享)&am…

Flutter 学习之旅 之 flutter 在 Android 端进行简单的打开前后相机预览 / 拍照保存

Flutter 学习之旅 之 flutter 在 Android 端进行简单的打开前后相机预览 / 拍照保存 目录 Flutter 学习之旅 之 flutter 在 Android 端进行简单的打开前后相机预览 / 拍照保存 一、简单介绍 二、简单介绍 camera 三、安装 camera 四、简单案例实现 五、关键代码 一、简单…

【Vue3 Teleport 技术解析:破解弹窗吸附与滚动列表的布局困局】

🌟 Vue3 Teleport 技术解析:破解弹窗吸附与滚动列表的布局困局 🌍 背景:传统组件嵌套的布局之痛 在传统前端开发中,组件往往被严格限制在父级 DOM 结构中,这导致三大典型问题: 层级监禁 &…

VBA技术资料MF276:在集合中使用键

我给VBA的定义:VBA是个人小型自动化处理的有效工具。利用好了,可以大大提高自己的工作效率,而且可以提高数据的准确度。“VBA语言専攻”提供的教程一共九套,分为初级、中级、高级三大部分,教程是对VBA的系统讲解&#…

安装Git(小白也会装)

一、官网下载:Git 1.依次点击(红框) 不要安装在C盘了,要炸了!!! 后面都 使用默认就好了,不用改,直接Next! 直到这里,选第一个 这两种选项的区别如…

前端正则表达式完全指南:从入门到实战

文章目录 第一章:正则表达式基础概念1.1 什么是正则表达式1.2 正则表达式工作原理1.3 基础示例演示 第二章:正则表达式核心语法2.1 元字符大全表2.2 量词系统详解2.3 字符集合与排除 第三章:前端常用正则模式3.1 表单验证类3.1.1 邮箱验证3.1…

Chromium项目相关

Chromium项目相关 Chromium 是一个开源浏览器项目,旨在为所有用户构建一种更安全、更快速、更稳定的方式来体验 Web。 自 Google 在 2008 年宣布 Chromium 项目以来,他们一直很高兴能够在开源 Web 浏览器的良好基础上进行构建,并为富 Web 平…

自动驾驶测试场景相关概念

自动驾驶测试场景 一、概念二、分类2.1、按照场景的抽象程度可分为:功能场景、逻辑场景、具体场景。2.2.、​按功能划分2.3、 ​按环境复杂度2.3、按场景类型 三、要素四、挑战与趋势4.1、长尾场景覆盖​4.2、伦理决策测试​4.3、车路协同测试​4.4、联邦学习驱动​…

给小白的oracle优化工具,了解一下

有时懒得分析或语句太长,可以尝试用oracle的dbms_sqldiag包进行sql优化, --How To Use DBMS_SQLDIAG To Diagnose Query Performance Issues (Doc ID 1386802.1) --诊断SQL 性能 SET ECHO ON SET LINESIZE 132 SET PAGESIZE 999 SET LONG 999999 SET SER…

基因型—环境两向表数据分析——品种生态区划分

参考资料:农作物品种试验数据管理与分析 用于品种生态区划分的GGE双标图有两种功能图:试点向量功能图和“谁赢在哪里”功能图。双标图的具体模型基于SD定标和h加权和试点中心化的数据。本例中籽粒产量的GGE双标图仅解释了G和GE总变异的53.6%,…

电路中如何计算电容容值大小

一个例题: 【电路中电容容值是怎么算出来的?】https://www.bilibili.com/video/BV1RQ4y1c7i1?vd_source3cc3c07b09206097d0d8b0aefdf07958

GPT大语言模型与搜索引擎:技术本质与应用场景的深度解析

引言 在人工智能和自然语言处理(NLP)领域,GPT(Generative Pre-trained Transformer)大语言模型和搜索引擎是两个备受关注的技术。尽管它们都涉及到信息检索和生成,但它们在技术原理、应用场景和用户体验上…

FreeRTOS-中断管理

实验目的 创建一个队列及一个任务,按下按键 KEY1 触发中断,在中断服务函数里向队列里发送数据,任务则阻塞接 收队列数据。 实验代码 实验结果 这样就实现了,使用中断往队列的发送信息,用任务阻塞接收信息

计算机毕业设计SpringBoot+Vue.js音乐网站(源码+文档+PPT+讲解)

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

更换k8s容器运行时环境为docker

更换k8s容器运行时环境为docker k8s-V1.24之后容器运行时默认是containerd,若想改为熟悉的docker作为运行时,需要做以下操作 在每个节点安装containerd、docker; 每个节点安装cri-docker; 调整kubelet配置并重启验证。 1.安装docker、con…

知识图谱-资源网

知识图谱-资源网 http://openkg.cn/datasets-type/https://www.ownthink.com/knowledge.html

小程序Three Dof识别 实现景区AR体验

代码工程 GitCode - 全球开发者的开源社区,开源代码托管平台 dof

2020 年英语(一)考研真题 笔记(更新中)

Section I Use of English(完型填空) 原题 Directions:Read the following text. Choose the best word (s) for each numbered blank and mark A, B, C or D on the ANSWER SHEET. (10 points) Even if families are less likely to si…

YOLO11改进加入ResNet网络

文章目录 1.改进目的2.demo引入2.1代码2.2 结果展示2.3 BottleNeck详解 1.改进目的 原始YOLO11模型训练好以后,检测结果mAP结果很低,视频检测结果很差,于是想到改进网络,这里介绍改进主干网络。 2.demo引入 2.1代码 # File: 2…

硬编码(三)经典变长指令一

我们在前两节的硬编码中学习了定长指令,接下来学习变长指令 对于定长指令,我们通过opcode便可知该指令的长度,但是对于变长指令却是不可知的。变长指令长度由opcode,ModR/M,SIB共同决定。变长指令通常在需要操作内存的…