HTAP
- HTAP技术
- 传统的HTAP解决方案
- HATP的要求
- TiDB的HTAP架构
- TiDB的HTAP特性
- 使用场景
 
- MPP
HTAP技术

传统的HTAP解决方案

 
HATP的要求
- 可扩展性 
  - 分布式事务
- 分布式存储
 
- 同时支持OLTP与OLAP 
  - 同时支持行存和列存
- OLTP与OLAP业务隔离
 
- 实时性 
  - 行存与列存数据实时同步
 
TiDB的HTAP架构
数据存到TiKV的同是也会同步(也是使用raft算法,并且它不参与选举,只用于同步)到TiFlash,并且是它是列式。列式的意思就是数据块当中存的不是一行数据,而是一列的数据。
对于数据一致性要求的查询,会去到TiKV当中(行存)处理数据。例如银行转账
 对于某列的数据大量更新,则会去到TiFLASH当总(列存)处理数据。

 
TiDB的HTAP特性
- 行列混合 
  - 列存(TiFlash) 支持基于主键的实时更新
- TiFlash作为列存副本
- OLTP与OLAP业务隔离
 
- 智能选择(CBO自动或人工选择)
- MPP架构
- 强一致性,自动同步
MPP: 大规模平行并发处理。 它在TiFLASH中处理。
使用场景
HTAP—— TiDB 在线事务与在线分析处理 (Hybrid Transactional and Analytical Processing,HTAP) 功能。
TiDB HTAP 可以满⾜企业海量数据的增产需求、降低运维的⻛险成本、与现有的⼤数据栈⽆缝缝合,从⽽实现数据资产价值的实时变现。
 以下是三种 HTAP 典型适⽤场景:
- 混合负载场景
 当将 TiDB 应⽤于在线实时分析处理的混合负载场景时,开发⼈员只需要提供⼀个⼊⼝,TiDB 将⾃动根据业务类型选择不同的处理引擎。
- 实时流处理场景
 当将 TiDB 应⽤于实时流处理场景时,TiDB 能保证源源不断流⼊系统的数据实时可查,同时可兼顾⾼并发数据服务与 BI 查询。
- 数据中枢场景
 当将 TiDB 应⽤于数据中枢场景时,TiDB 作为数据中枢可以⽆缝连接数据业务层和数据仓库层,满⾜不同业务的需求。
- 大数据量
 ⼤数据场景 (100 T) ,推荐使⽤ TiFlash MPP 作为 HTAP 的主要⽅案,TiSpark 作为补充⽅案。
MPP
- 大量数据的join聚合查询
- 所有MPP计算都在TiFlash节点内存中完成
- 目前只支持等值连接
- Enforce_mpp 帮助验证是否可以使用MPP
  
 实现了聚合和连接的一个加速。MPP只在TiFlash上完成。
SQL过来,TiDB Server作为协调者,Tidb 会将每个TiFLASH 上面的列存做交换,交换后让表连接需要的数据只在一个TiFLASH上。(不会跨TiFlash做表连接)
 另外TiFlash也会走计算下推到它,例如过滤,交换,连接,聚合等等。
 每个TiFlash 在这里还有个专用名称(MPP WORKER)
 
 先做过滤

 然后数据交换
 
 让pid相等(符合条件)的数据 都到一个节点上来。 这样在连接的时候,就只需要在本节点连接即可。
 pid:hash(pid) = 0,1,2 : 假设分片的时候是按照hash或者求模的方式操作。 数据交换也可以根据对应的规则进行交换。

然后做连接的时候,只发生在本节点,不需要到其他节点查找数据,这样就可以并行执行了。
那如何对聚合做提速?
 group by order.state 提速
 
 state = cn 80个 的全放到一个TiFlash USA 15个 放到一个节点 Jp 77个都放到一个节点,

 这个计算就下推到每个TiFLASH上。

 


















