GitHub - leeguandong/MiniLLaMA3: llama3的迷你版本,包括了数据,tokenizer,pt的全流程llama3的迷你版本,包括了数据,tokenizer,pt的全流程. Contribute to leeguandong/MiniLLaMA3 development by creating an account on GitHub.
https://github.com/leeguandong/MiniLLaMA31.数据预处理
使用DPO(直接偏好优化,Direct Preference Optimization)微调,在获得SFT模型的基础上,无需训练奖励模型,取得正向回答(chosen)和负向回答(rejected)即可开始微调。微调的`chosen`文本来自原数据集[alpaca-gpt4-data-zh](h








![[图解]企业应用架构模式2024新译本讲解16-行数据入口2](https://img-blog.csdnimg.cn/direct/0cb7ec57d47642a694c3f05c836a40cb.png)










