X265墒编码--代码分析
x265 墒编码X265 HEVC编码器架构分析一 整体代码架构1.1 目录与模块划分source/├── x265cli.cpp / x265cli.h # 命令行入口、参数解析、help├── x265.h # 对外 API、参数结构、版本├── encoder/ # 编码核心│ ├── encoder.cpp/h # 编码器顶层创建/销毁、encode() 主流程、VPS/SPS/PPS│ ├── api.cpp # x265_encoder_encode() 等对外接口│ ├── frameencoder.cpp/h # 单帧编码compressFrame、WPP 行调度、processRow│ ├── slicetype.cpp/h # Lookaheadslice 类型决策、低分辨率估计、cost│ ├── search.cpp/h # 运动估计、模式搜索ME、PME、merge 等│ ├── analysis.cpp/h # CU 划分与模式决策Analysis::compressCTU 等│ ├── motion.cpp/h # 运动估计数据结构与接口│ ├── entropy.cpp/h # CABAC 熵编码│ ├── framefilter.cpp/h # 去块、SAO│ ├── ratecontrol.cpp/h # 码率控制QP、VBV、ABR 等│ ├── dpb.cpp/h # 解码图像缓冲区DPB│ ├── nal.cpp/h, sei.cpp, level.cpp, reference.cpp, bitcost.cpp, sao.cpp├── common/ # 通用数据结构与算法│ ├── frame.cpp/h, framedata.cpp/h, slice, picyuv, cudata # 帧/片/CU 数据│ ├── quant.cpp/h, dct.cpp # 变换量化│ ├── param.cpp, primitives.cpp, bitstream, predict, deblock, loopfilter, intrapred│ ├── threadpool.cpp/h # 线程池、JobProvider、BondedTaskGroup│ ├── wavefront.cpp/h # WPP 波前调度行依赖、enqueue/enable│ ├── threading.cpp/h # Thread、Event、Lock 等封装├── input/, output/ # YUV/Y4M 等 IO├── dynamicHDR10/ # HDR10 等└── test/, profile/ # 测试与性能分析1.2 数据与编码流水线概览- 输入x265_picture, 拷贝到Frame PicYuv 送入Lookahead- Lookahead低分辨率初始化AQ帧代价估计slice类型与POC决策输出已决策帧- 编码器从Lookahead 取getDecidedPicture 交给某个FrameEncoder 做单帧压缩- 单帧压缩码率控制-slice 墒初始化CTU行波前或串行处理分析 变换量化 墒编码 去块/SAO- 输出 编码后的帧通过 getEncodePicture() 回到Encoder::encode() 写入DPB输出NAL比特流。二 线程架构2.1 线程角色概览- API 主线程1 调用encode() 送输入取lookahead决策帧分配FrameEncoder, 取编码结果并输出- Frame Encoder线程frameNumThreads 每个对应一个FrameEncoder运行threadMain 等- 线程池Worker 每池N个执行JobProvider::findJob() 为Lookahead或FrameEncoder- Lookahead 专用池可选lookaheadThreads 0 时单独建池只做lookahead 不与帧编码共享2.2 线程间协作关系API线程输入pic_in, 封装为Frame m_lookahead-addPicture()当lookahead填满后frameEnc m_lookahead-getDecidedPicture()再选一个curEncoder, curEncoder取出 curEncoder-getEncodedPicture(m_nallist) 内部会等该帧的m_done- Frame Encoder线程循环m_enable.wait() -comporessFrame() -m_done.trigger()再compressFrame() 里码率控制 slice/墒初始化若 ** 开WPP **则对每行解外部依赖后enableRow, 对row0, enqueueRow, tryWakeOne() 然后本线程 阻塞在m_completionEvent 直到所有行被处理完。- 未开 WPP同一线程串行执行processRowEncoder(i, m_tld[...]) 不用池- 线程池 Worker从当前或优先的JobProvider调用 findJob(workerId)JobProvider 可以是Lookahead 低分辨率初始化AQ帧代价估计等PreLookaheadGroup,CostEstimateGroup 等通过BondedTaskGroup 拉多线程FrameEncoder 继承WaveFront, JobProvider findJob 即波前调度取可用的最小row, 执行processRow(row, threadid) 分析 编码 滤波该行Lookahead专用池当lookaheadThreads 0时会单独allocThreadPools(..., 1) 建一组池只挂Lookahead为JobProvider, 不与帧编码的池共享避免lookahead与帧编码抢同一批worker。2.3 参数对线程的影响frame-threads (frameNumThreads) 并发编码的帧数也是FrameEncoder 及各自线程的个数每帧由一个FrameEncoder负责- pools numaPools:按NUMA节点划分的线程池每个池若干Worker FrameEncoder 轮流绑定到不同池i % m_numPools- wpp 开启后帧内按CTU行波前并行行由线程池Worker 执行processRow 关闭则仅仅由该帧对应的FrameEncoder线程串行processRowEncoder()-pmode/pme 在帧内用BondedTaskGroup把模式分析运动估计等子任务分给池内worker-lookahead-threads 专用lookahead 池的worker数量0表示lookahead与帧编码共用同一批池三 线程架构图(Mermaid)下面用 Mermaid 画出「线程类型 数据/控制流」的架构图便于在支持 Mermaid 的查看器中渲染如 GitHub、VS Code 插件等。mermaidflowchart TBsubgraph API[API / 主线程]A1[encode(pic_in, pic_out)]A2[Frame → Lookahead.addPicture()]A3[frameEnc Lookahead.getDecidedPicture()]A4[curEncoder.startCompressFrame(frameEnc)]A5[curEncoder.getEncodedPicture(nalList)]A1 -- A2A2 -- A3A3 -- A4A4 -- A5A5 -- A1endsubgraph FE[Frame Encoder 线程 (× frameNumThreads)]F1[threadMain(): m_enable.wait()]F2[compressFrame()]F3[slice/熵初始化、enableRow / enqueueRow]F4[WPP: m_completionEvent.wait()]F5[m_done.trigger()]F1 -- F2F2 -- F3F3 -- F4F4 -- F5F5 -- F1endsubgraph Pool[线程池 Worker (每池 N 个)]W1[findJob(workerId)]W2A[Lookahead: 低分辨率/AQ/Cost 估计]W2B[FrameEncoder: processRow(row)]W1 -- W2AW1 -- W2Bendsubgraph LA[Lookahead (逻辑)]L1[addPicture / 决策队列]L2[getDecidedPicture()]endAPI --|addPicture| LAAPI --|getDecidedPicture| LAAPI --|startCompressFrame → m_enable.trigger()| FEAPI --|getEncodedPicture → 等 m_done| FEFE --|enqueueRow / tryWakeOne()| PoolFE --|JobProvider this| PoolLA --|JobProvider Lookahead| PoolPool --|processRow() 完成行| FE简化版线程与角色关系Mermaidflowchart LRsubgraph Main[主线程]API[API encode]endsubgraph FrameThreads[帧编码线程]FE0[FrameEnc 0]FE1[FrameEnc 1]FEN[FrameEnc N-1]endsubgraph Pools[线程池]WP[Worker 0..M]endsubgraph LookaheadPool[Lookahead 专用池 (可选)]LW[Lookahead Workers]endAPI --|输入帧| LookaheadLookahead --|已决策帧| APIAPI --|分配帧| FrameThreadsFrameThreads --|WPP: 行任务| PoolsLookahead --|低分辨率/代价| PoolsLookahead --|若 lookaheadThreads0| LookaheadPoolPools --|processRow / findJob| FrameThreadsFrameThreads --|编码结果| API四 关键类与职责类/模块 职责Encoder 顶层编码器:create/destory, encode() 主循环Lookahead /DPB/RC/FrameEncoder创建与协调FrameEncoder 单帧编码继承Thread WaveFront(JobProvider)compressFrame, 行依赖WPP调度Lookahead 缓冲输入帧低分辨率AQ帧代价slice类型决策getDecidedPicture()ThreadPool,一组WorkerThread 分配JobProvider 支持Numa亲和JobProvider findJob(workerId); lookahead与FrameEncoder均为Provider WaveFront 行级依赖位图enqueueRow/enableRow, findJob选最小row调用processRowBondedTaskGroup 临时绑定多个worker执行processTasks, 用于PMEpmode,Lookahead批量任务五 小结帧级并行 多路FrameEncoder线程每路负责一帧的完整编码流出API线程按顺序取决策并轮转分配给不同FrameEncoder帧内并行WPP, 开启后由线程池Worker 并处理不同CTU行FrameEncoder 线程只做调度与等待完成。Lookahead 并行通过线程池或专用lookahead 池做低分辨率cost估计等可与帧编码共享或独立池。协调机制Event m_enable,m_done, m_completionEvent, lock原子/依赖位图以及RateControl的跨帧顺序保证正确性与码率控制。1 文档位置source/docs/ARCHITECTURE.md包含目录与模块划分数据/编码流水线线程角色与协作参数对线程的影响关键类职责以及两段Mermaid图流程图 简化关系图source/docs/thread-architecture.mmd单独的线程架构Mermaid图便于Mermaid编辑里打开或导出为图片。2 整体架构概括入口 Encoder::encode() 输入x265_picture 输出Nal比特流流水线输入帧-〉lookahead 低分辨率AQ帧代价slice类型决策-决策进入DPB/编码队列 分配给某个FrameEncoder 做整帧压缩码率控制slice, CTU行处理墒编码去块/SAO 输出编码帧核心目录encoder/编码流程帧编码lookahead 搜索墒编码码率控制等。common/帧CU/量化/DCT线程池波前参数等。3 线程架构概括 对应架构图线程类型数量/来源作用API主线程1调用encoder() 送帧进lookahead,取getDecidedPicture(), startCompressFrame() 分配帧getEncodePicture()取结果并输出Frame Encoder线程frameNumThreads每个一个线程循环等m_enable-执行compressFrame() 码率控制初始化若开WPP则下发行任务并等待完成-触发m_done线程池Worker每池N个执行JobProvider::findJob(),要么为Lookahead做低分辨率/代价估计要么为FrameEncoder做WPP的processRow(row),编码一行CTULookahead专用池可选单独一组worker只做lookahead不与帧编码池共享关系要点多帧并行多个FrameEncoder线程每帧固定由一个FrameEncoder负责帧内并行WPP开WPP时CTU行由线程池里的worker 并行执行processRow() ,对应FrameEncoder 线程只做调度并等m_completionEventLookahead可与帧编码共用同一批线程池也可用专用池。1 墒编码在本工程里分两层层次内容典型接口/写法参数集/高层语法VPSSPS,PPS,VUI,AUD,slice header等codeVPS/codeSPS/codePPS/codeSliceHeader等多为定长Exp-Golomb(WRITE_CODE,WRITE_UVLC等继承自SyntaxElementWriter)片内数据 CTU/CU/TU 系数HEVC规定的CABACEntropy::encodeBin/encodeBinEP/encodeBinTrm ,上下文在m_contextState[]Entropy.h 里面的Entropy同时承担写真实比特流m_bitIf 指向BitStream 和RDO时估计比特(m_bitIf NULL) 只累加m_fracBits, 不真正写文件。2 单帧里墒编码在流水线的位置1 模式决策 变换量化在Analysis::compressCTU完成过程中用一个Entropy在m_bitIf NULL 下估计代价。2 最终写码流同一 rowCoder在CTU定稿后再encodeCTU已选定的CU系数按语法写入若开SAO还会在CTU前写SAO语法。帧末尾在FrameEncoder::compressFrame, 先m_entropyCoder(m_initSliceContext), 再codeSliceHeader, 把各个WPP子码流 拼进NAL也就是说先把CTU 数据编码进子流再写slice头并封装。3 CTU 级encodeCTU, encodeCU递归void Entropy::encodeCTU(const CUData ctu, const CUGeom cuGeom){bool bEncodeDQP ctu.m_slice-m_pps-bUseDQP;encodeCU(ctu, cuGeom, 0, 0, bEncodeDQP);if (!(ctu.m_bLastCol ctu.m_bLastRow))encodeBinTrm(0);}encodeCU 按CUGeom 递归进入子CU需要时写codeSplitFlag叶CU上大致顺序 与HEVC一致1 非I片codeSkipFlag, 若为Skip codeMergeIndex finishCU, 结束2 否则codePredMode 帧内/帧间3 codePartSize PU划分2Nx2N,2NxN,AMP等4 codePredInfo, 帧内则亮度/色度intra方向帧间则codePUWise5 codeCoeff;根CBF 帧间再进行encodeTransform写TU树与系数If (!slice-isIntra()) {Bool skipFlag ctu.m_predMode[absPartIdx] PRED_SKIP;codeSkipFlag(ctu, absPartIdx, skipFlag);If (skipFlag) {codeMergeIndex(ctu, absPartIdx);finishCU(ctu, absPartIdx, depth, bEncodeDQP);Return ;}codePredMode(ctu.m_predMode[absPartIdx]);}codePartSize(ctu, absPartIdx, depth);//prediction InfocodePredInfo(ctu, absPartIdx);codeCoeff(ctu, absPartIdx, bEncodeDQP, tuDepthRange);finishCU(ctu, absPartIdx, depth, bEncodeDQP);4 变换与系数 codeCoeff-encodeTransform-codeCOeffNxNVoid Entropy::codeCoeff(const CUData cu, uint32_t absPartIdx, bool bCodeDQP, const uint32_t depthRange[2]){If (!cu.isIntra(absPartIdx)) {Bool rootCbf cu.getQtRootCbf(absPartIdx);If (!cu.m_mergeFlag[absPartIdx] cu.m_predMode[absPartIdx] PRED_2Nx2N)codeQtRootCbf(rootCbf);Uint32_t log2CuSize cu.m_log2CuSize[absPartIdx];encodeTransform(cu, absPartIdx, 0, log2CuSize, bCodeDQP, depthRange)}}codeCOeffNxN 系数编码的主体确定 last significant coefficient 位置一类逻辑前缀CABAC 后缀 bypass.按4x4系数组写significant_coeff_group_flag组内写significant_coeff_flag, coeff_abs_level_greater1/2, coeff_abs_level_remaining等与你在quant.cpp 里RDOQ用的上下文一致。若开启sign hiding, 符号按规范与电平一起处理。5 CABAC状态resetEntropy 与引擎resetEntropy(const Slice slice): 按slice 类型 QP用标准INIT_*表初始化m_contextState各段(split, skip, merge, MVD, cbf, sig, last, level等)然后start 重置算数编码寄存器void Entropy::resetEntropy(const Slice slice){int qp slice.m_sliceQp;SliceType sliceType slice.m_sliceType;initBuffer(m_contextState[OFF_SPLIT_FLAG_CTX], sliceType, qp, (uint8_t*)INIT_SPLIT_FLAG, NUM_SPLIT_FLAG_CTX);...initBuffer(m_contextState[OFF_ABS_FLAG_CTX], sliceType, qp, (uint8_t*)INIT_ABS_FLAG, NUM_ABS_FLAG_CTX);...start();}start(): m_range 510, m_low 0, m_bitsLeft -12等即HEVC CABAC算数编码段的起点void Entropy::start(){m_low 0;m_range 510;m_bitsLeft -12;m_numBufferedBytes 0;m_bufferedByte 0xff;}encodeBin(bin, ctxModel)用sbacNext 更新上下文状态若有m_bitIf 按LPS表划分区间重归一化必要时writeOut 把字节写入BitStream若无m_bitIf, 只m_fracBits sbacGetNetropyBits() 用于RDOvoid Entropy::encodeBin(uint32_t binValue, uint8_t ctxModel){uint32_t mstate ctxModel;ctxModel sbacNext(mstate, binValue);if (!m_bitIf){m_fracBits sbacGetEntropyBits(mstate, binValue);return;}...if (m_bitsLeft 0)writeOut();}encodeBinEP/encodeBinsEP, 等概率bin, 不更新上下文直接扩m_low / m_rangeencodeBinTrm 用于terminate 如CTU间0slice结束 finishSlice里的1Finish 算数编码flush, 处理carry与末尾比特与标准CABAC收尾一致。片结束处finishSlice() 会encodeBinTrm(1) finish() 字节对齐6 WPP与上下文同步每一行用独立子码流当前行第二个CTU col 1, 把CABAC上下文存到m_rows[row].bufferedEntropy,供下一行第一个CTU前loadCOntexts 保证与HEVC波前约束一致frameencoder.cpp里encodeRow/processRowEncoder 与bufferEntropy7流程串起来参数集用定长UVLC - slice header用混合语法片内从左上CTU起递归CUskip/merge /模式/PU/TU/CBF/QP 系数全部走CABAC encodeBin, 或bypass encodeBinEP, CTU之间encodeBinTrm(0), slice未encodeBinTrm(1) finish() RDO阶段同一套APi在m_bitIf NULL下只累计分数比特。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2447664.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!