如何解释这个最小 gzip 示例中的最终 0x03 0x00?

逆向工程 解压
2021-07-02 18:48:26

我正在阅读gzip 格式规范,试图逐字节理解以下最小示例(使用 生成echo -n | gzip > /tmp/a.gz):

00000000  1f 8b 08 00 70 3c b4 5d  00 03 03 00 00 00 00 00  |....p<.]........|
00000010  00 00 00 00                                       |....|
00000014

我设法映射了大部分字节,但“03 00”是我无法解释的。我编写了一个 Python 脚本来模糊“03”字节的不同值,但除该字节外不允许任何其他值:

[15:13:05]>>> import subprocess
[15:13:08]>>> results = {}                  
[15:13:10]>>> for i in range(256): results[i] = subprocess.Popen(f'''echo '1f8b0800703cb45d0003{hex(i)[2:]:0>2}000000000000000000'  | xxd -r -p |  zcat''', shell=True, stderr=subprocess.PIPE).stderr.read()
... 
Pp0�` ��@�X▒�x8�h(�H�[15:13:25]>>> 
[15:13:26]>>> results2 = {value: list(k for k in results if results[k] == value) for value in results.values()}
[15:13:31]>>> results2
{b'\ngzip: stdin: invalid compressed data--format violated\n': [0, 1, 2, 6, 7, 8, 9, 10, 14, 15, 16, 17, 18, 22, 23, 24, 25, 26, 30, 31, 32, 33, 34, 38, 39, 40, 41, 42, 46, 47, 48, 49, 50, 54, 55, 56, 57, 58, 62, 63, 64, 65, 66, 70, 71, 72, 73, 74, 78, 79, 80, 81, 82, 86, 87, 88, 89, 90, 94, 95, 96, 97, 98, 102, 103, 104, 105, 106, 110, 111, 112, 113, 114, 118, 119, 120, 121, 122, 126, 127, 128, 129, 130, 134, 135, 136, 137, 138, 142, 143, 144, 145, 146, 150, 151, 152, 153, 154, 158, 159, 160, 161, 162, 166, 167, 168, 169, 170, 174, 175, 176, 177, 178, 182, 183, 184, 185, 186, 190, 191, 192, 193, 194, 198, 199, 200, 201, 202, 206, 207, 208, 209, 210, 214, 215, 216, 217, 218, 222, 223, 224, 225, 226, 230, 231, 232, 233, 234, 238, 239, 240, 241, 242, 244, 245, 246, 247, 248, 249, 250, 252, 253, 254, 255], b'': [3], b'\ngzip: stdin: unexpected end of file\n': [4, 5, 11, 12, 13, 19, 20, 21, 27, 28, 29, 35, 36, 37, 43, 44, 45, 51, 52, 53, 59, 60, 61, 67, 68, 69, 75, 76, 77, 83, 84, 85, 91, 92, 93, 99, 100, 101, 107, 108, 109, 115, 116, 117, 123, 124, 125, 131, 132, 133, 139, 140, 141, 147, 148, 149, 155, 156, 157, 163, 164, 165, 171, 172, 173, 179, 180, 181, 187, 188, 189, 195, 196, 197, 203, 204, 205, 211, 212, 213, 219, 220, 221, 227, 228, 229, 235, 236, 237, 243, 251]}

这是什么0x03 0x00我可以在 gzip(或DEFLATE)文档中的什么位置找到它?

1个回答

如果您阅读zlib 源代码以及DEFLATE 压缩数据格式规范,您可以找到它们的来源。

这些字节中的位代表压缩流的开始和结束。

具体来说,它们来自源代码中的 2 个相关位置 -

// trees.c
// line 978

// _tr_flush_block 

send_bits(s, (STATIC_TREES<<1)+last, 3);

这里last=1STATIC_TREES=1 (这些对应于BFINALBTYPE在规范中)这将 3 位 1、1、0 输出到压缩文件中。

这些表明压缩块使用“固定树”,也是最后一个块。

然后它表明它已到达块的末尾 -

// trees.c
// line 1108

// compress_block

send_code( c, END_BLOCK, ltree )

块尾码是 256,对于固定的哈夫曼树,它对应于 7 个零位。(请参阅 DEFLATE 规范中的 3.2.6。)因此,这会向压缩文件输出 7 位 0, 0, 0, 0, 0, 0, 0。

这总共给了我们 10 位 -

1 1 0 0 0 0 0 0 0 0

根据我们得到的规范转换为字节 -

00000011 00000000, or
0x03, 0x00

这些是您所看到的值。