Llama:开源的急先锋

news2025/5/15 6:48:20

Llama:开源的急先锋

Llama1:开放、高效的基础语言模型

Llama1使用了完全开源的数据,性能媲美GPT-3,可以在社区研究开源使用,只是不能商用。

Llama1提出的Scaling Law

业内普遍认为如果要达到同一个性能指标,训练更大大模型会更划算,因为训练的成本会降低,较大的模型会更快的收敛,但是llama不这么认为,llama认为虽然训练成本会降低,但是推理的成本会提高,推理代价会比训练代价更加重要。

Llama还建议10B的模型用200B的token训练,相同的计算预算,增加训练数据比扩大模型有效。

llama1的训练数据

Llama1使用公开渠道获取的数据
对CommonCrawl(2017-220)数据集进行了去重,去除非英文数据,使用线性模型进行质量分类过滤。书和维基百科训练了两个epoch,其他则是一个。
上下文长度为2048,2048个A100-80G GPU,训练21天。
在这里插入图片描述

注:
Common Crawl 是一个非营利性组织(501©(3)),由 Gil Elbaz 于 2007 年创立。它通过大规模分布式爬虫系统定期抓取互联网上的网页数据,并将这些数据免费提供给公众。

自 2008 年以来,Common Crawl 已积累了数十亿个网页,数据量达数十 PB。每月都会进行一次爬取

llama1的模型结构

和GPT一样使用了transformer的Decader架构,做出以下修改:

  1. 和GPT3一样将Normalization从每个子层的输出位置移动到了输入位置
  2. 将Layer Norm改为RMS Norm
  3. 采用了旋转位置编码
  4. 采用了silu激活函数,可以提高精度,计算代价较高。

二、Llama2:开放的基础的微调聊天模型

相比Llama1:Llama2更加open,它可以用于商用,训练的数据量更大,训练了ChatModel,对标chatGPT。

Llama2的训练

Llama2的训练数据比Llama1多了40%,达到了2Ttoken,训练上下文从2048增加到4096,训练了172万个GPU小时,相当于2048个GPU训练35小时。

使用10万条监督数据进行监督微调,使用了100万条人类偏好数据进行强化学习。

训练流程:
在大量文本上进行自回归的预训练–>使用监督数据进行监督微调–>使用人类偏好数据训练安全奖励模型和有用奖励模型对模型进行强化学习训练–>Llama2-chat

Llama2的模型架构

  1. 引入了GQA(分组查询注意力机制)

三、Llama3:开源的微调聊天模型

目标:做最好的开源大模型,可以和最好的商用大模型媲美。

Llama3的模型架构

字典从三万两千个token扩充到12万八千个token。扩充四倍,原来一个中文被编码成多个token,现在一个中文被编码成一个个token。提高了推理效率
采用GQA(分组查询注意力机制)
训练时的训练长度从4096扩充到8192

Llama3的训练数据

训练数据采用了15T的token的数据集,全部来自公开数据,是llama2的7倍大小,同时代码数据也多了四倍。由研究表明代码数据可以增强模型的推理能力。
数据集中有5%的高质量非英语数据,涵盖30多种语言,对数据进行了清洗过滤,由Llama2生成训练数据来帮助训练文本分类器,微调阶段处理开源数据集,还人工标注了1000万样本。

缩放定律

制定了一系列缩放定律,通过小模型表现可以在大模型训练前预测大模型的表现。

根据之前Scaling Law推算8B模型对应2000亿Token,但是Meta发现即使15万亿Token训练,性能还可以提升。

在两个定制的24k GPU集群上训练。有效训练时间超过95%,比Llama2提高了3倍。

模型训练(GPU小时)GPU训练Token
Llama1 65B1.0MA100 80G1.4万亿
Llama2 70B1.7MA100 80G2万亿
Llama3 70B7.7MH100 80G15万亿

指令微调

从Llama2-chat到Llama3-Instruct,可以看出现在的模型不仅仅是用来聊条,更多的是做指令跟随。

指令微调用到了SFT、拒绝采样、PPO、DPO
Llama2-chat到Llama3-Instruct,可以看出现在的模型不仅仅是用来聊条,更多的是做指令跟随。

指令微调用到了SFT、拒绝采样、PPO、DPO

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2375885.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

“redis 目标计算机积极拒绝,无法连接” 解决方法,每次开机启动redis

如果遇到以上问题 先打开“服务” 找到App Readiness 右击-启动 以管理员身份运行cmd,跳转到 安装redis的目录 运行:redis-server.exe redis.windows.conf 以管理员身份打开另一cmd窗口,跳转到安装redis的目录 运行:redis-…

LeetCode 热题 100 35.搜索插入位置

目录 题目: 题目描述: 题目链接: 思路: 核心思路: 思路详解: 代码: Java代码: 题目: 题目描述: 题目链接: 35. 搜索插入位置 - 力扣&…

从 “学会学习” 到高效适应:元学习技术深度解析与应用实践

一、引言:当机器开始 “学会学习”—— 元学习的革命性价值 在传统机器学习依赖海量数据训练单一任务模型的时代,元学习(Meta Learning)正掀起一场范式革命。 这项旨在让模型 “学会学习” 的技术,通过模仿人类基于经验…

AI开发者的算力革命:GpuGeek平台全景实战指南(大模型训练/推理/微调全解析)

目录 背景一、AI工业化时代的算力困局与破局之道1.1 中小企业AI落地的三大障碍1.2 GpuGeek的破局创新1.3 核心价值 二、GpuGeek技术全景剖析2.1 核心架构设计 三、核心优势详解‌3.1 优势1:工业级显卡舰队‌‌‌3.2 优势2:开箱即用生态‌3.2.1 预置镜像库…

AWS SNS:解锁高并发消息通知与系统集成的云端利器

导语 在分布式系统架构中,如何实现高效、可靠的消息通知与跨服务通信?AWS Simple Notification Service(SNS)作为全托管的发布/订阅(Pub/Sub)服务,正在成为企业构建弹性系统的核心组件。本文深度…

【PmHub后端篇】PmHub集成 Sentinel+OpenFeign实现网关流量控制与服务降级

在微服务架构中,保障服务的稳定性和高可用性至关重要。本文将详细介绍在 PmHub 中如何利用 Sentinel Gateway 进行网关限流,以及集成 Sentinel OpenFeign 实现自定义的 fallback 服务降级。 1 熔断降级的必要性 在微服务架构中,服务间的调…

2025最新出版 Microsoft Project由入门到精通(八)

目录 查找关键路径方法 方法1:格式->关键任务 方法2:插入关键属性列 方法3:插入“可宽延的总时间”进行查看,>0不是关键路径,剩余的全是关键路径 方法4:设置关键路径的工作表的文本样式​编辑 方法5:突出显示/筛选器…

3.0/Q2,Charls最新文章解读

文章题目:Development of a visualized risk prediction system for sarcopenia in older adults using machine learning: a cohort study based on CHARLS DOI:10.3389/fpubh.2025.1544894 中文标题:使用机器学习开发老年人肌肉减少症的可视…

使用matlab进行数据拟合

目录 一、工作区建立数据 二、曲线拟合器(在"APP"中) 三、曲线拟合函数及参数 四、 在matlab中编写代码 一、工作区建立数据 首先,将数据在matlab工作区中生成。如图1所示: 图 1 二、曲线拟合器(在"APP"中) 然后,…

分布式1(cap base理论 锁 事务 幂等性 rpc)

目录 分布式系统介绍 一、定义与概念 二、分布式系统的特点 三、分布式系统面临的挑战 四、分布式系统的常见应用场景 CAP 定理 BASE 理论 BASE理论是如何保证最终一致性的 分布式锁的常见使用场景有哪些? 1. 防止多节点重复操作 2. 资源互斥访问 3. 分…

Myshell与清华联合开源TTS模型OpenVoiceV2,多语言支持,风格控制进一步增强~

项目背景 开发团队与发布 OpenVoice2 由 MyShell AI(加拿大 AI 初创公司)与 MIT 和清华大学的研究人员合作开发,技术报告于 2023 年 12 月发布 ,V2 版本于 2024 年 4 月发布 。 项目目标是提供一个高效、灵活的语音克隆工具&…

YOLO11解决方案之热力图探索

概述 Ultralytics提供了一系列的解决方案,利用YOLO11解决现实世界的问题,包括物体计数、模糊处理、热力图、安防系统、速度估计、物体追踪等多个方面的应用。 使用YOLO11生成的热力图把复杂的数据转换成生动的彩色编码矩阵。这种可视化工具采用色谱来表示不同的数据值,暖色…

如何在终端/命令行中把PDF的每一页转换成图片(PNG)

今天被对象安排了一个任务: 之前自己其实也有这个需要,但是吧,我懒:量少拖拽,量大就放弃。但这次躲不过去了,所以研究了一下有什么工具可以做到这个需求。 本文记录我这次发现的使用 XpdfReader 的方法。…

计算机系统结构——Cache性能分析

一、实验目的 加深对Cache的基本概念、基本组织结构以及基本工作原理的理解。掌握Cache容量、相联度、块大小对Cache性能的影响。掌握降低Cache不命中率的各种方法以及这些方法对提高Cache性能的好处。理解LRU与随机法的基本思想以及它们对Cache性能的影响。 二、实验平台 实…

GESP2023年12月认证C++八级( 第三部分编程题(2)大量的工作沟通)

参考程序&#xff1a; #include <cstdio> #include <cstdlib> #include <cstring> #include <algorithm> #include <string> #include <map> #include <iostream> #include <cmath> #include <vector> #include <qu…

015枚举之滑动窗口——算法备赛

滑动窗口 最大子数组和 题目描述 给你一个整数数组 nums &#xff0c;请你找出一个具有最大和的连续子数组&#xff08;子数组最少包含一个元素&#xff09;&#xff0c;返回其最大和。 原题链接 思路分析 见代码注解 代码 int maxSubArray(vector<int>& num…

新型深度神经网络架构:ENet模型

语义分割技术能够为图像中的每个像素分配一个类别标签&#xff0c;这对于理解图像内容和在复杂场景中找到目标对象至关重要。在自动驾驶和增强现实等应用中&#xff0c;实时性是一个硬性要求&#xff0c;因此设计能够快速运行的卷积神经网络非常关键。 尽管深度卷积神经网络&am…

【免杀】C2免杀技术(三)shellcode加密

前言 shellcode加密是shellcode混淆的一种手段。shellcode混淆手段有多种&#xff1a;加密&#xff08;编码&#xff09;、偏移量混淆、UUID混淆、IPv4混淆、MAC混淆等。 随着杀毒软件的不断进化&#xff0c;其检测方式早已超越传统的静态特征分析。现代杀软往往会在受控的虚…

WPF之集合绑定深入

文章目录 引言ObservableCollection<T>基础什么是ObservableCollectionObservableCollection的工作原理基本用法示例ObservableCollection与MVVM模式ObservableCollection的局限性 INotifyCollectionChanged接口深入接口定义与作用NotifyCollectionChangedEventArgs详解自…