大模型核心基础简介

news2025/12/18 14:25:59

大模型核心基础简介目录

  • 一、大模型简介
    • 定义
    • 核心特征
  • 二、大模型的发展历程
    • 1. 早期奠基(1950s–2010s)
      • 1950s–1980s:神经网络萌芽
      • 1990s–2010s:深度学习前夜
    • 2. 架构革命:Transformer的诞生与预训练范式(2017–2020)
      • 2017年
      • 2018年:BERT与GPT-1
      • 2019–2020年:模型规模化加速
    • 3. 全民化时代:ChatGPT引爆交互革命(2020–2023)
      • 2021年:多模态模型兴起
      • 2022年:大模型爆发,临界点到来
      • 2023年:通用人工智能(AGI)雏形,开源与多模态竞争
    • 4. 全民化、生态重构、开源,效率化与垂直化落地阶段(2024–至今)
      • 技术演进:
      • 产业落地:
      • 开源与竞争:
        • 开源社区崛起
    • 关键里程碑总结
  • 总结

一、大模型简介

定义

大模型(Large Models)又称“大规模预训练模型”,指那些拥有数十亿个甚至数万亿个参数,且利用海量的数据进行预训练和微调的深度学习模型。

核心特征

参数量级:从早期的百万级(如RNN)发展到千亿级(如GPT-3的1750亿参数)。
训练数据:依赖海量多模态数据(文本、图像、视频等),例如GPT-3训练数据达45TB。
计算需求:依赖分布式训练框架(如Megatron-LM)和高性能硬件(如GPU/TPU集群)。

二、大模型的发展历程

1. 早期奠基(1950s–2010s)

1950s–1980s:神经网络萌芽

1958年:感知机(Perceptron)提出,首次尝试模拟神经元计算。

1986年:反向传播算法(Backpropagation)完善,为神经网络训练奠定数学基础。

但受限于数据和算力,模型规模极小(参数仅数百至数千)。

1990s–2010s:深度学习前夜

1997年:长短时记忆网络(LSTM)提出,解决RNN的长期依赖问题。

2012年:AlexNet在ImageNet竞赛中夺冠,首次验证深度卷积神经网络(CNN)的潜力。

2014年:Seq2Seq模型(如机器翻译)引入注意力机制,推动自然语言处理(NLP)发展。

2. 架构革命:Transformer的诞生与预训练范式(2017–2020)

2017年

Google团队发表论文《Attention Is All You Need》,提出Transformer架构,核心创新包括:

自注意力机制(Self-Attention):替代RNN/CNN,高效捕捉长距离依赖。

并行化训练:大幅提升模型训练速度。

这一架构成为后续所有大模型(如GPT、BERT)的技术基石。

2018年:BERT与GPT-1

BERT(Bidirectional Encoder Representations from Transformers):首个基于双向Transformer的预训练模型,通过掩码语言建模(MLM)学习上下文语义,刷新NLP任务性能。

GPT-1(Generative Pre-trained Transformer):OpenAI推出首个生成式预训练模型,采用单向Transformer解码器,开启自回归生成范式。

2019–2020年:模型规模化加速

GPT-2(2019):参数量增至15亿,生成连贯长文本的能力增强,但因伦理争议未完全开源。

T5(2020):Google提出“Text-to-Text”统一框架,将NLP任务统一为文本生成任务。

GPT-3(2020):参数量跃升至1750亿,验证“缩放定律”(Scaling Law),即模型性能随参数量、数据量和算力同步提升,并展现涌现能力(如上下文学习、多任务泛化)。但其“仅限API访问”模式引发行业对模型开放性的讨论,为后续ChatGPT的全民化埋下伏笔。

3. 全民化时代:ChatGPT引爆交互革命(2020–2023)

2021年:多模态模型兴起

CLIP(OpenAI):打通文本与图像表征,支持零样本图像分类。

DALL-E:基于GPT-3架构的文本生成图像模型,参数量120亿。

2022年:大模型爆发,临界点到来

2022年11月30日,OpenAI发布通用大模型ChatGPT,由此拉开了人工智能新时代的序幕。从此人类与机器之间的交流变得更加自然和智能,并且推动大模型从技术探索转向大众应用,但存在成本高、领域泛化不足的瓶颈。

11月30日ChatGPT发布:基于GPT-3.5,首次将大模型以对话式交互推向公众,标志两大突破:

  1. 技术民主化:零门槛的自然语言界面使非技术人员可直接使用AI。
  2. 齐技术(RLHF)普及:通过人类反馈强化学习,解决模型输出安全性问题。

PaLM(Google):5400亿参数,在语言理解、代码生成和数学推理上表现卓越。

Stable Diffusion:开源文生图模型,推动AI创作平民化。

AlphaFold 2(DeepMind):基于Transformer的蛋白质结构预测模型,解决生物学难题。

2023年:通用人工智能(AGI)雏形,开源与多模态竞争

GPT-4(OpenAI):支持多模态输入(文本+图像),逻辑推理能力接近人类水平。

LLaMA(Meta):开源大模型(70亿–650亿参数),降低技术门槛。

Gemini(Google):原生多模态模型,性能对标GPT-4。

4. 全民化、生态重构、开源,效率化与垂直化落地阶段(2024–至今)

2024年深度求索(DeepSeek)的崛起标志大模型进入“低成本专业化”的新阶段

技术演进:

架构创新

稀疏MoE架构:相比传统密集模型(Dense Model)与早期MoE(如Switch Transformer),DeepSeek通过动态专家选择算法,在同等参数下实现训练成本降40%+推理速度提升3倍,推动行业从“拼参数”转向“拼效率”。

垂直微调技术:发布领域专用模型(如DeepSeek-Finance),在金融分析、科学计算等任务上超越通用模型(GPT-4准确率+12%)。

产业落地:

ToB场景突破:

制造业
医疗

国产化生态:

深度适配华为昇腾芯片,训练效率比英伟达A100提升20%,推动中国“软硬协同”自主路线。

开源与竞争:

中国开源标杆:DeepSeek-7B模型在GitHub获星超5万,吸引东南亚、中东开发者,形成首个全球级中文开源社区。

地缘多极化:全球大模型格局从“中美通用模型对决”转向“通用-垂直-开源三线并行”,形成四大阵营:

阵营代表玩家核心策略
通用闭源OpenAI、Google持续扩大模型规模
垂直专用DeepSeek、Hugging Face深耕行业场景
开源社区Meta、DeepSeek生态共建与开发者赋能
区域化模型中东Jais、韩国HyperCLOVA本土语言与文化适配
开源社区崛起

Hugging Face平台推动模型共享(如BLOOM、Falcon)。

微调工具(如LoRA)和轻量化技术(模型蒸馏、量化)普及。

关键里程碑总结

时间事件意义
2017Transformer架构提出奠定大模型技术基础
2018BERT与GPT-1发布开启预训练模型时代
2020GPT-3问世验证缩放定律,推动大模型规模化
2022Stable Diffusion开源AI生成内容(AIGC)爆发
2022.11ChatGPT发布大模型从实验室走向大众,引爆AI全民化时代
2023.3GPT-4与LLaMA发布多模态普及与开源生态形成,拉开通用智能序幕
2023.12Gemini Nano手机端部署标志大模型进入终端计算时代
2024.4DeepSeek模型发布开启垂直化、高效率模型新范式
2024.6DeepSeek开源社区用户破10万中国开源生态获得全球影响力

总结

当前大模型的发展已经从技术突破转向价值深挖,以多模态融合、开源共享推动通用智能边界扩展,同时聚焦低成本、高精度、强适配并深耕垂直领域。竞争格局呈现差异化与本土化特征——中美分化为通用模型与垂直赛道两大路线,全球AI竞赛从技术单极争夺转向多元生态构建(开源社区、区域模型、政策协同),目前技术路线、市场策略与地缘政策的复杂交织情景正在重塑产业未来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2373833.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

广东省省考备考(第八天5.11)—言语:逻辑填空(每日一练)

错题 解析 第一空,搭配“期盼”,且根据“生命,是来自上天的馈赠”,可知父母对孩子的出生是非常期盼的。A项“望穿秋水”,形容对远地亲友的殷切盼望,C项“望眼欲穿”,形容盼望殷切,均…

github+ Picgo+typora

github Picgotypora 本文将介绍如何使用Picgo在typora中实现上传服务 创建github仓库以及配置token 创建仓库 注意需要Initialize 添加README 配置为public 配置token github点击头像找到setting 选择Developer setting 配置token generate 选第一个第二个都行(我这里选第…

[网安工具] IP 信息收集工具 —— LBD · 使用手册

🌟想了解其它网安工具?看看这个:[网安工具] 网络安全工具管理 —— 工具仓库 管理手册 lbd | Kali Linux ToolsVideolbd Usage ExampleTest to see if the target domain (example.com) is using a load balancer:rootkali:~# lbd example.c…

说说es配置项的动态静态之分和集群配置更新API

这天因为某件工作来到了es官网某个参数配置相关的页面,注意到了下图圆圈里的“Dynamic”: 链接:https://www.elastic.co/guide/en/elasticsearch/reference/8.1/modules-cluster.html#misc-cluster-settings 显然这是对配置项的一个描述&am…

LLMs之Mistral Medium 3:Mistral Medium 3的简介、安装和使用方法、案例应用之详细攻略

LLMs之Mistral Medium 3:Mistral Medium 3的简介、安装和使用方法、案例应用之详细攻略 目录 Mistral Medium 3 简介 1、Mistral Medium 3 特点 Mistral Medium 3 安装和使用方法 2、使用方法 (1)、创建Agent (2)、模型微调 Mistral Medium 3 案例应用 Mistr…

并发设计模式实战系列(17):信号量(Semaphore)

🌟 大家好,我是摘星! 🌟 今天为大家带来的是并发设计模式实战系列,第十七章信号量(Semaphore),废话不多说直接开始~ 目录 一、核心原理深度拆解 1. 信号量本质模型 2. 并发控制…

RAGMCP基本原理说明和相关问题解惑

一、RAG架构原理和局限性 1.1 概念解释 RAG(Retrieval-Augmented Generation):检索增强生成,让大模型接受外部输入后,总结输出 向量数据库:向量数据通常是高维空间中的点,代表复杂的数据结构…

Java学习手册:服务注册与发现

一、服务注册与发现的概念 在微服务架构中,服务注册与发现是核心功能之一。由于微服务架构中服务实例的数量和位置是动态变化的,服务注册与发现机制允许服务实例在启动时自动注册到注册中心,并在停止时自动注销。其他服务可以通过查询注册中…

双向Transformer:BERT(Bidirectional Encoder Representations from Transformers)

基于Transformer架构,通过双向上下文建模训练,提高完成任务的性能。 一 BERT的核心理念 1.1双向上下文建模依赖 之前讲的双向递归是用两个RNN进行,而BERT是通过Transformer的自注意力机制同时捕捉上下文信息。 1.1.1掩码语言模型&#xf…

EdgeOne Pages MCP 入门教程

什么是MCP? MCP (Model Context Protocol) 是一个开放协议,允许 AI 模型安全地与本地和远程资源进行交互。通过在支持 MCP 的客户端(如 Cline、Cursor、Claude 等)上进行统一配置,可以让 AI 访问更多资源并使用更多工…

Maven 公司内部私服中央仓库搭建 局域网仓库 资源共享 依赖包构建共享

介绍 公司内部私服搭建通常是为了更好地管理公司内部的依赖包和构建过程,避免直接使用外部 Maven 中央仓库。通过搭建私服,团队能够控制依赖的版本、提高构建速度并增强安全性。公司开发的一些公共工具库更换的提供给内部使用。 私服是一种特殊的远程仓…

1688代采系统:技术架构与应用实践

在电商领域,1688 作为国内领先的 B2B 电商平台,拥有海量的商品信息。这些数据对于企业采购决策、市场分析、价格监控和供应链管理具有重要价值。本文将详细介绍如何使用 Python 爬虫技术,通过 1688 的商品详情接口(item_search 和…

一种混沌驱动的后门攻击检测指标

摘要 人工智能(AI)模型在各个领域的进步和应用已经改变了我们与技术互动的方式。然而,必须认识到,虽然人工智能模型带来了显著的进步,但它们也存在固有的挑战,例如容易受到对抗性攻击。目前的工作提出了一…

【2025最新】为什么用ElasticSearch?和传统数据库MySQL与什么区别?

Elasticsearch 深度解析:从原理到实践 一、为什么选择 Elasticsearch? 数据模型 Elasticsearch 是基于文档的搜索引擎,它使用 JSON 文档来存储数据。在 Elasticsearch 中,相关的数据通常存储在同一个文档中,而不是分散…

c++的模板和泛型编程

c的模板和泛型编程 泛型编程函数模板函数模板和模板函数函数模板的原理函数模板的隐式、显式实例化模板参数的匹配原则 类模板类模板的实例化模板的使用案例用函数模板运行不同的模板类用函数模板运行不同的STL容器 模板的缺省参数非类型模板参数模板的特化函数模板的特化类模板…

Java从入门到精通 - 数组

数组 此笔记参考黑马教程,仅学习使用,如有侵权,联系必删 文章目录 数组1. 认识数组2. 数组的定义和访问2.1 静态初始化数组2.1.1 数组的访问2.1.1 定义代码实现总结 2.1.2 数组的遍历2.1.2.1 定义代码演示总结 案例代码实现 2.2 动态初始化…

MySql事务索引

索引 1.使用 创建主键约束(PRIMARY KEY)、唯一约束(UNIQUE)、外键约束(FOREIGN KEY)时,会自动创建 对应列的索引。 2.创建索引(普通索引) 事务:要么全部…

八股文-js篇

八股文-js篇 1. 延迟执行js的方式2. js的数据类型3. null 和 undefined的区别4. 和 的区别5. js微任务和宏任务6. js作用域7. js对象9. JS作用域this指向原型8. js判断数组9. slice作用、splice是否会改变原数组10. js数组去重11. 找出数组最大值12. 给字符串新增方法实现功能…

【2025五一数学建模竞赛B题】 矿山数据处理问题|建模过程+完整代码论文全解全析

你是否在寻找数学建模比赛的突破点?数学建模进阶思路! 作为经验丰富的美赛O奖、国赛国一的数学建模团队,我们将为你带来本次数学建模竞赛的全面解析。这个解决方案包不仅包括完整的代码实现,还有详尽的建模过程和解析&#xff0c…

智能制造环形柔性生产线实训系统JG-RR03型模块式环形柔性自动生产线实训系统

智能制造环形柔性生产线实训系统JG-RR03型模块式环形柔性自动生产线实训系统 一、产品概述 (一)组成 柔性系统须有五个分系统构成即:数字化设计分系统、模拟加工制造分系统、检测装配分系统、生产物分流系统和信息管理分系统。它应包含供料检测单元,操作…