文章目录
- 1. `.git/objects` 目录
 - 2. `git cat-file` 命令
 - 3. 根据文件内容生成 sha-1
 - 4. 结语
 - 5. References
 
1. .git/objects 目录
 
git 是一个根据文件内容进行检索的系统。 当创建 hello.py, 填入
print("hello, world")
 
的内容, 并执行
git add hello.py
git commit -m "init"
 
会在 .git/objects 目录生成子目录和文件。 子目录是2位,文件则是38位, 子目录和文件名字拼接起来的到的40位哈希码, 就是 SHA-1:

 比较新版本的 git, 当执行上述 git 操作后, 会在 .git/objects 里存储多个子目录, 旧版本的 git 则只生成一个子目录。我用的 git 2.45.2, 目录结构为:

2. git cat-file 命令
 
git cat-file 命令能查看 sha-1 的情况, 这里暂时未查阅文档, 仅做基本介绍。
git cat-file -t <sha-1> 查看的是 sha-1 的类型。 其中 sha-1 是子目录和文件拼接起来的。例如
➜  test git:(main) ✗ git cat-file -t 8cde7829c178ede96040e03f17c416d15bdacd01
blob
 
git cat-file -p <sha-1> 则是查看 blob 类型的内容:
➜  test git:(main) ✗ git cat-file -p 8cde7829c178ede96040e03f17c416d15bdacd01
print("hello world")
 
3. 根据文件内容生成 sha-1
git 其实已经帮我们计算了 sha-1, 这是它存储文件时最基本的计算。 当我们有两个内容完全一样的文件被 git add 和 git commit, 对应的 blob 对象是相同的。
作为验证,我们拷贝 hello.py 内容并提交:
➜  test git:(main) ✗ cp hello.py world.py
➜  test git:(main) ✗ git add world.py
➜  test git:(main) ✗ git commit -m "add world.py"
[main f72f05d] add world.py
 1 file changed, 1 insertion(+)
 create mode 100644 world.py
 

 发现 .git/objects 目录新增的两个子目录,分别是 tree 和 commit 类型,并不是 blob 类型。 换言之, world.py 和 hello.py 对应的 blob 都是 8cde7829c17.
作为验证, 可以使用 Python 的 hashlib模块, 基于如下格式算出 sha-1:
blob {文件内容长度}\0 {file_content}
 
其中 {file_content} 是文件内容.
的到的结果是:
➜  test git:(main) ✗ python githash.py hello.py
8cde7829c178ede96040e03f17c416d15bdacd01
➜  test git:(main) ✗ python githash.py world.py
8cde7829c178ede96040e03f17c416d15bdacd01
 
具体的 githash.py 实现如下:
#!/usr/bin/env python3
from sys import argv
from hashlib import sha1
from io import StringIO
class Githash(object):
    def __init__(self):
        self.buf = StringIO()
    def update(self, data):
        self.buf.write(data)
    def hexdigest(self):
        data = self.buf.getvalue().encode('utf-8')
        h = sha1()
        h.update(f"blob {len(data)}\0".encode('utf-8'))
        h.update(data)
        return h.hexdigest()
def githash_data(data):
    h = Githash()
    h.update(data)
    return h.hexdigest()
def githash_fileobj(fileobj):
    return githash_data(fileobj.read())
if __name__ == '__main__':
    for filename in argv[1:]:
        with open(filename, 'r', encoding='utf-8') as fileobj:
            print(githash_fileobj(fileobj))
 
4. 结语
.git/objects 目录存放的子目录中, 有些子目录是 blob 类型的对象, 表示了文件内容。 当两个文件内容一致时, git 对它们生成相同的 SHA-1。 在了解 blob 类型对象的 sha-1 计算过程的前提下,基于 Python 的 hashlib 写了一个工具, 能根据文件内容算出 sha-1, 这既可以作为理解 git 对象存储的初步, 也可以作为后续自行实现一个 mini-git 的基础。
5. References
- https://gist.github.com/msabramo/763200
 - https://www.bilibili.com/video/BV1FZ4y1W7ZS/?p=2&spm_id_from=pageDriver
 



















