HTTP协议中Gzip格式的流量分析与识别

news2025/7/10 3:39:53

背景

在协议分析过程中，经常会发现gzip压缩的数据，例如在HTTP协议中，在HTTP头中会标示，内容编码为gzip、DEFLATE。

但是，还有很多情况，例如一些非HTTP协议，特别是私有协议中，数据同样采用gzip压缩，但是，流量中并未写明数据是gzip压缩格式，这就给分析带来了困难。

如何解决这个困难呢？只能从数据本身着手了，需要了解gzip压缩后数据的特征和标记，以确定哪些数据是gzip压缩。

gzip的基础是DEFLATE，它其实是多种压缩文件格式的简称。在RFC1952中对gzip格式进行了定义。

认识

对gzip格式的数据，通常使用zlib库就可以解压缩。

gzip压缩格式的数据的识别，依靠的是gzip格式内的一些特征，gzip格式如下图：

具体如下：

10字节的头，包含幻数、版本号以及时间戳，对应ID1、ID2、CM、FLG、MTIME、XFL、OS；

可选的扩展头extra data ，如原文件名；

文件体compressed blocks，包括DEFLATE压缩的数据；

8字节的尾注，包括CRC-32校验和CRC32以及未压缩的原始数据长度ISIZE。

识别

在文件头中，ID1和ID2分别为固定值0x1F，0x8B；而CM则定义了压缩使用的算法，目前仅一种，即DEFLATE压缩，对应值为0x08；FLG、MTIME、XFL、OS分别为标记、时间、可选扩展头标记、操作系统标记。

对gzip格式的识别，依靠的就是gzip的起始3字节，因为这三个字节目前是固定的，只有我们在数据流中，发现了1F 8B 08，则表示找到了gzip编码数据的起始了，继续分析就简单了。

附一个测试数据，如果你转码正确，那就对了

\x1f\x8b\x08\x00\xff\x04rc\x02\xff\x01\x12\x00\xed\xff\xe6\x88\x91\xe6\x98\xaf\xe6\xb5\x8b\xe8\xaf\x95\xe6\x95\xb0\xe6\x8d\xae\xb8_\x11\xaa\x12\x00\x00\x00

解码后为我是测试数据