【Doris入门】Doris初识:分布式分析型数据库的核心价值与架构解析

news2025/6/3 22:20:16

目录

1 Doris简介与核心价值

2 Doris架构深度解析

2.1 Frontend(FE)架构

2.2 Backend(BE)架构

3 Doris核心概念详解

3.1 数据分布模型

3.2 Tablet与Replica

3.3 数据模型

4 Doris关键技术解析

4.1 存储引擎

4.2 查询执行流程

4.3 数据导入机制

5 总结


1 Doris简介与核心价值

Apache Doris(原百度Palo)是一款开源的MPP(大规模并行处理)分析型数据库,专为实时数据分析场景设计。作为百度贡献给Apache基金会的顶级项目,Doris在OLAP(在线分析处理)领域展现出强大的性能优势。
Doris的核心价值体现在以下几个方面:
  • 实时分析能力:支持秒级数据导入和实时查询响应
  • 高并发性能:可支持数千QPS的高并发查询
  • 易用性强:兼容MySQL协议,学习成本低
  • 高可用性:自动故障恢复,数据多副本存储
  • 弹性扩展:支持在线动态扩缩容
  • 与其他OLAP系统的对比

特性

Doris

ClickHouse

Hive

Presto

实时分析

×

×

高并发

×

×

易用性

×

扩展性

事务支持

部分

×

×

×

2 Doris架构深度解析

Doris采用经典的MPP架构,整体上分为前端(Frontend)和后端(Backend)两个主要组件。

2.1 Frontend(FE)架构

Frontend是Doris的协调节点,负责接收客户端请求、元数据管理、查询规划和调度等工作。FE节点又分为:
  • Master FE:主节点,负责元数据写入和DDL操作
  • Follower FE:从节点,参与选举,可处理读请求
  • Observer FE:观察者节点,仅同步元数据,不参与选举
FE的核心组件包括:
  • Query Planner:将SQL查询转换为分布式执行计划
  • Metadata Manager:管理数据库、表、分区等元数据
  • Load Scheduler:协调数据导入任务

2.2 Backend(BE)架构

Backend是Doris的计算和存储节点,负责数据存储和查询执行。每个BE节点包含:
  • Storage Engine:列式存储引擎,负责数据持久化
  • Query Execution:执行分布式查询计划
  • Compaction:负责数据合并优化
  • Tablet Manager:管理数据分片(Tablet)

 

3 Doris核心概念详解

3.1 数据分布模型

Doris采用分区(Partition)+分桶(Bucket)的两级数据分布策略:
  • 分区:按照分区列的值进行范围或列表分区,常用于时间维度
  • 分桶:在分区内通过哈希分桶,将数据均匀分布到不同Tablet

3.2 Tablet与Replica

  • Tablet:数据分片的基本单位,每个Tablet包含若干数据文件(segment)
  • Replica:Tablet的副本,默认3副本,保障数据高可用

3.3 数据模型

Doris支持三种数据模型:
  • Duplicate模型:明细模型,保留原始数据不做聚合
  • Aggregate模型:预聚合模型,适合统计报表场景
  • Unique模型:唯一键模型,支持主键唯一性约束

4 Doris关键技术解析

4.1 存储引擎

Doris采用列式存储格式,具有以下特点:
  • 按列存储:每列单独存储,查询时只需读取相关列
  • 智能索引:内置zonemap索引,加速范围查询
  • 编码压缩:支持多种编码方式(Bitmap, Run-length等)
  • 分层存储:热数据SSD,冷数据HDD

4.2 查询执行流程

  • 解析阶段:FE解析SQL,检查语法和语义
  • 规划阶段:生成分布式执行计划,拆分为多个Plan Fragment
  • 执行阶段:BE并行执行Plan Fragment
  • 结果合并:FE收集中间结果并合并返回

4.3 数据导入机制

Doris支持多种数据导入方式:
  • Stream Load:HTTP协议实时导入
  • Broker Load:通过Broker从HDFS导入
  • Routine Load:持续消费Kafka数据
  • Insert Into:标准SQL插入方式

5 总结

Apache Doris作为一款新兴的MPP分析型数据库,凭借其优异的实时分析能力、高并发性能和易用性,正在成为企业数据架构中的重要组成部分。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2393880.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据结构与算法学习笔记(Acwing 提高课)----动态规划·区间DP

数据结构与算法学习笔记----动态规划区间DP author: 明月清了个风 first publish time: 2025.5.26 ps⭐️区间DP的特征在于子结构一般是一个子区间上的问题,涉及到的问题也非常多,如环形区间,记录方案数,高精度,二维…

从0到1搭建AI绘画模型:Stable Diffusion微调全流程避坑指南

从0到1搭建AI绘画模型:Stable Diffusion微调全流程避坑指南 系统化学习人工智能网站(收藏):https://www.captainbed.cn/flu 文章目录 从0到1搭建AI绘画模型:Stable Diffusion微调全流程避坑指南摘要引言一、数据集构…

从一到无穷大 #46:探讨时序数据库Deduplicate与Compaction的设计权衡

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。 本作品 (李兆龙 博文, 由 李兆龙 创作),由 李兆龙 确认,转载请注明版权。 文章目录 引言Compaction AlgorithmsCompact Execution Flow Based On VeloxLocalMergeSource的…

vue3 导出excel

需求&#xff1a;导出自带格式的excel表格 1.自定义二维数组格式 导出 全部代码&#xff1a; <el-button click"exportExcel">导出</el-button> const exportExcel () > {const data [[商品, 单价, 数量, 总价],[A, 100, 1.55, { t: n, f: B2*C2…

day024-网络基础-TCP与UDP、DNS

文章目录 1. 李导推荐书籍2. OSI七层模型2.1 传输层2.2 网络层2.2.1 问&#xff1a;两端处于不同局域网的设备怎么网络通信&#xff1f; 2.3 数据链路层2.4 物理层2.5 图解OSI七层模型 3. 数据传输模式3.1 全双工3.2 半双工3.3 单工 4. TCP 3次握手4.1 抓包 5. TCP 4次挥手5.1 …

专场回顾 | 重新定义交互,智能硬件的未来设计

自2022年起&#xff0c;中国智能硬件行业呈现出蓬勃发展的态势&#xff0c;市场规模不断扩大。一个多月前&#xff0c;“小智AI”在短视频平台的爆火将智能硬件带向了大众视野&#xff0c;也意味着智能硬件已不再仅仅停留在概念和技术层面&#xff0c;而是加速迈向实际落地应用…

WPS 免登录解锁编辑

遇到 WPS 需要登录才能启用编辑功能&#xff1f; 如何免登录使用编辑功能&#xff1f; 方法一 解锁方法 1、关闭 WPS&#xff1b; 2、桌面右键→ “新建”→“文本文档”&#xff0c;粘贴以下内容&#xff08;见最下面&#xff09;&#xff1b;编码保持默认&#xff08;ANSI …

技术分享 | Oracle SQL优化案例一则

本文为墨天轮数据库管理服务团队第70期技术分享&#xff0c;内容原创&#xff0c;作者为技术顾问马奕璇&#xff0c;如需转载请联系小墨&#xff08;VX&#xff1a;modb666&#xff09;并注明来源。 一、问题概述 开发人员反映有条跑批语句在测试环境执行了很久都没结束&…

华为手机用的时间长了,提示手机电池性能下降,需要去换电池吗?平时要怎么用能让电池寿命长久一些?

华为手机提示电池性能下降时&#xff0c;是否需要更换电池以及如何延长电池寿命&#xff0c;取决于电池老化程度和使用习惯。以下是具体分析和建议&#xff1a; 一、是否需要更换电池&#xff1f; 电池健康度低于80% 如果手机提示“电池性能下降”&#xff0c;通常意味着电池…

BERT***

​​1.预训练&#xff08;Pre-training&#xff09;​​ 是深度学习中的一种训练策略&#xff0c;指在大规模无标注数据上预先训练模型&#xff0c;使其学习通用的特征表示&#xff0c;再通过​​微调&#xff08;Fine-tuning&#xff09;​​ 适配到具体任务 2.sentence-lev…

超级对话2:大跨界且大综合的学问融智学应用场景述评(不同第三方的回应)之二

摘要&#xff1a;《人机协同文明升维行动框架》提出以HIAICI/W公式推动认知革命&#xff0c;构建三大落地场景&#xff1a;1&#xff09;低成本认知增强神经接口实现300%学习效率提升&#xff1b;2&#xff09;全球学科活动化闪电战快速转化知识体系&#xff1b;3&#xff09;人…

深度学习常见实验问题与实验技巧

深度学习常见实验问题与实验技巧 有一定的先后顺序的 还在迷茫深度学习中的改进实验应该从哪里开始改起的同学&#xff0c;一定要进来看看了&#xff01;用自身经验给你推荐实验顺序&#xff01; YOLOV8-硬塞注意力机制&#xff1f;这样做没创新&#xff01;想知道注意力怎么…

一张Billing项目的流程图

流程图 工作记录 2016-11-11 序号 工作 相关人员 1 修改Payment Posted的导出。 Claim List的页面加了导出。 Historical Job 加了Applied的显示和详细。 郝 识别引擎监控 Ps (iCDA LOG :剔除了160篇ASG_BLANK之后的结果): LOG_File 20161110.txt BLANK_CDA/ALL 45/10…

理想树图书:以科技赋能教育,开启AI时代自主学习新范式

深耕教育沃土 构建全场景教辅产品矩阵 自2013年创立以来&#xff0c;理想树始终以教育匠心回应时代命题。在教辅行业这片竞争激烈的领域&#xff0c;由专业教育工作者组成的理想树图书始终秉持“知识互映”理念&#xff0c;经过十余年的精耕细作&#xff0c;精心打造了小学同步…

【大模型02】Deepseek使用和prompt工程

文章目录 DeepSeekDeepseek 的创新MLA &#xff08;低秩近似&#xff09; MOE 混合专家混合精度框架总结DeepSeek-V3 与 DeepSeek R1 DeepSeek 私有化部署算例市场&#xff1a; autoDLVllM 使用Ollma复习 API 调用deepseek-r1Prompt 提示词工程Prompt 实战设置API Keycot 示例p…

大学大模型教学:基于NC数据的全球气象可视化解决方案

引言 气象数据通常以NetCDF(Network Common Data Form)格式存储,这是一种广泛应用于科学数据存储的二进制文件格式。在大学气象学及相关专业的教学中,掌握如何读取、处理和可视化NC数据是一项重要技能。本文将详细介绍基于Python的NC数据处理与可视化解决方案,包含完整的代…

MediaMtx开源项目学习

这个博客主要记录MediaMtx开源项目学习记录,主要包括下载、推流(摄像头,MP4)、MediaMtx如何使用api去添加推流,最后自定义播放器,播放推流后的视频流,自定义Video播放器博客地址 1 下载 MediaMTX MediaMTX 提供了预编译的二进制文件,您可以从其 GitHub 页面下载: Gi…

Linux安装EFK日志分析系统

目标&#xff1a;能够实现采集指定路径日志到es&#xff0c;用kibana实现日志分析 单es节点集群规划&#xff1a; 主机名IP 地址组件a1192.168.1.111Kibana elasticsearcha2192.168.1.112Fluentda3192.168.1.103Fluentd 1、安装Elasticsearch 1.1添加 Elastic 仓库并安装 E…

Linux(9)——进程(控制篇——下)

目录 三、进程等待 1&#xff09;进程等待的必要性 2&#xff09;获取子进程的status 3&#xff09;进程的等待方法 wait方法 waitpid方法 多进程创建以及等待的代码模型 非阻塞的轮训检测 四、进程程序替换 1&#xff09;替换原理 2&#xff09;替换函数 3&…

E. Melody 【CF1026 (Div. 2)】 (求欧拉路径之Hierholzer算法)

E. Melody 思路 将所有出现过的音量和音高看作一个点&#xff0c;一个声音看作一条边&#xff0c;连接起来。那么很容易知道要找的就是图上的一条欧拉路径&#xff08;类似一笔画问题&#xff09; 又已知存在欧拉路径的充要条件为&#xff1a;度数为奇数的点的个数为0或者2个…