BERT***

news2025/6/4 0:22:29

​1.预训练(Pre-training)​

是深度学习中的一种训练策略,指在大规模无标注数据上预先训练模型,使其学习通用的特征表示,再通过​​微调(Fine-tuning)​​ 适配到具体任务

2.sentence-level(句子级任务)​​和​​token-level(词元级任务)​

自然语言处理(NLP)中,​​sentence-level(句子级任务)​​和​​token-level(词元级任务)​​是根据任务处理的文本粒度划分的两类任务。

在自然语言处理(NLP)中,Feature-based (Elmo) 与 Fine-tuning (GPT) 是两种使用预训练语言模型的策略。它们的主要区别在于 如何将预训练模型应用到下游任务 中。

在自然语言处理(NLP)中,​​sentence-level(句子级任务)​​和​​token-level(词元级任务)​​是根据任务处理的文本粒度划分的两类任务。它们的区别主要体现在输入输出的形式和应用场景上:


​1. Sentence-Level(句子级任务)​

​定义​​:以​​整个句子或句子对​​作为输入,输出是对句子整体属性的预测或分类。
​特点​​:

  • 输入是一个完整的句子(或两个句子的组合)。
  • 输出是句子级别的标签或分数。
  • 通常用于理解句子的语义、情感或关系。

​典型任务​​:

  • ​文本分类​​(如情感分析、主题分类)
    • 输入:"这部电影太精彩了!"
    • 输出:正面情感
  • ​自然语言推理(NLI)​
    • 输入:"句子A:猫在沙发上。句子B:沙发上有一只动物。"
    • 输出:蕴含(Entailment)
  • ​句子相似度​
    • 输入:"句子A:天气真好。句子B:今天阳光明媚。"
    • 输出:相似度0.9(0-1范围)

​BERT中的应用​​:

  • 使用[CLS]标签的最终隐藏状态作为整个句子的表示,接分类器输出结果。

​2. Token-Level(词元级任务)​

​定义​​:以​​句子中的每个词或子词(Token)​​为处理单元,输出对每个Token的预测或标注。
​特点​​:

  • 输入是一个句子,但需要对每个Token单独处理。
  • 输出是Token级别的标签序列。
  • 通常用于细粒度的语言分析。

​典型任务​​:

  • ​命名实体识别(NER)​
    • 输入:"马云在杭州创立了阿里巴巴。"
    • 输出:[B-PER, I-PER, O, B-LOC, O, O, B-ORG]
  • ​词性标注(POS Tagging)​
    • 输入:"我爱自然语言处理"
    • 输出:[代词, 动词, 名词, 名词, 名词]
  • ​问答任务(QA)​
    • 输入:"问题:谁写了《哈利波特》? 上下文:J.K.罗琳是《哈利波特》的作者。"
    • 输出:答案跨度"J.K.罗琳"(定位起始和结束Token的位置)。

3.Feature-based (Elmo) 与 Fine-tuning (GPT)

Feature-based(基于特征的方法,如 ELMo)

  • 核心思想
    使用预训练模型(如 ELMo)提取每个词的上下文表示作为“静态特征”,然后将这些特征作为输入提供给一个单独训练的下游模型(如 BiLSTM+CRF)。

  • 过程如下

    1. 用预训练好的语言模型(如 ELMo)生成文本的上下文嵌入(embeddings)。

    2. 将这些嵌入作为特征输入到任务特定的模型中(如文本分类器、NER模型等)。

    3. 只训练下游模型的参数,ELMo参数保持不变(有时可以微调,但本质上是特征提取)。

Fine-tuning(微调方法,如 GPT/BERT)

代表模型:GPT、BERT、T5、LLAMA 等

  • 核心思想
    将整个预训练模型和下游任务模型作为一个整体进行端到端训练。

  • 过程如下

    1. 将下游任务的数据输入预训练模型(如 GPT/BERT)。

    2. 在其顶层添加一个或多个任务特定的层(如分类器)。

    3. 使用任务数据对整个模型进行微调,包括预训练模型本身。

4.BERT

1.BERT结构

1.输入

BERT的输入由三部分嵌入(Embedding)相加组成:

  1. ​Token Embeddings​​(词嵌入)

    • 使用​​WordPiece分词​​(30,000词表),解决未登录词(OOV)问题。
    • 特殊标记:
      • [CLS]:分类任务的聚合表示(位于序列开头)。
      • [SEP]:分隔句子对(如问答中的问题和答案)。
      • [MASK]:预训练时用于掩码语言模型(MLM)。
  2. ​Segment Embeddings​​(句子嵌入)

    • 区分句子A和句子B(如问答对、句对任务),用E_AE_B表示。
  3. ​Position Embeddings​​(位置嵌入)

    • 使用可学习的位置编码(而非Transformer的固定正弦/余弦函数),支持最长512个Token的序列。

2.BERT通过两个无监督任务预训练:

​(1) 掩码语言模型(Masked Language Model, MLM)​

  • ​方法​​:随机掩盖15%的输入Token,其中:
    • 80%替换为[MASK]
    • 10%替换为随机Token。
    • 10%保持不变(缓解预训练-微调不一致)。
  • ​目标​​:基于上下文预测被掩盖的原始Token。

​(2) 下一句预测(Next Sentence Prediction, NSP)​

  • ​方法​​:给定句子A和B,预测B是否是A的下一句(50%正例,50%随机负例)。
  • ​目标​​:学习句子间关系,提升问答(QA)、自然语言推理(NLI)等任务性能。

2.Bert用途 

语言模型(Language Model, LM) 的目标是:给定前面的词序列,预测下一个词的概率。

Transformer 本身只是一个神经网络架构,包含以下两种主要模块:

  • Encoder:用于建模整段输入(如 BERT)

  • Decoder:用于按序生成词(如 GPT)

Transformer 结构能不能用来做语言模型?
Encoder-only(如 BERT)❌ 不能做自回归语言模型(会信息泄露)
Decoder-only(如 GPT)✅ 可以做语言模型(逐词生成)
Encoder-Decoder(如 T5)✅ 可用于生成任务,也能做语言建模(但更常用于翻译、摘要)
  • BERT 不是用来生成句子的(不像 GPT);

  • 它做的是填空、理解,不会从左到右一步步生成;

  • BERT 的核心用途是做“理解”类任务,是为各种 NLP 下游任务提供语义理解的预训练模型。

应用举例用 BERT 怎么做
1️⃣ 文本分类情感分析、垃圾邮件检测将整段文本喂给 BERT,取 [CLS] 向量接全连接层做分类
2️⃣ 序列标注命名实体识别(NER)、分词每个词有一个表示,接一个分类器预测标签(如人名、地名)
3️⃣ 句子对判断语义相似度、句子关系判断把两个句子拼在一起,让 BERT 判断是否相关
4️⃣ 问答系统(QA)给你一段文章,问“谁是美国总统”BERT 提取答案的起止位置
5️⃣ 多轮对话理解对话状态跟踪、意图识别同样是对语言的“理解”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2393862.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

超级对话2:大跨界且大综合的学问融智学应用场景述评(不同第三方的回应)之二

摘要:《人机协同文明升维行动框架》提出以HIAICI/W公式推动认知革命,构建三大落地场景:1)低成本认知增强神经接口实现300%学习效率提升;2)全球学科活动化闪电战快速转化知识体系;3)人…

深度学习常见实验问题与实验技巧

深度学习常见实验问题与实验技巧 有一定的先后顺序的 还在迷茫深度学习中的改进实验应该从哪里开始改起的同学,一定要进来看看了!用自身经验给你推荐实验顺序! YOLOV8-硬塞注意力机制?这样做没创新!想知道注意力怎么…

一张Billing项目的流程图

流程图 工作记录 2016-11-11 序号 工作 相关人员 1 修改Payment Posted的导出。 Claim List的页面加了导出。 Historical Job 加了Applied的显示和详细。 郝 识别引擎监控 Ps (iCDA LOG :剔除了160篇ASG_BLANK之后的结果): LOG_File 20161110.txt BLANK_CDA/ALL 45/10…

理想树图书:以科技赋能教育,开启AI时代自主学习新范式

深耕教育沃土 构建全场景教辅产品矩阵 自2013年创立以来,理想树始终以教育匠心回应时代命题。在教辅行业这片竞争激烈的领域,由专业教育工作者组成的理想树图书始终秉持“知识互映”理念,经过十余年的精耕细作,精心打造了小学同步…

【大模型02】Deepseek使用和prompt工程

文章目录 DeepSeekDeepseek 的创新MLA (低秩近似) MOE 混合专家混合精度框架总结DeepSeek-V3 与 DeepSeek R1 DeepSeek 私有化部署算例市场: autoDLVllM 使用Ollma复习 API 调用deepseek-r1Prompt 提示词工程Prompt 实战设置API Keycot 示例p…

大学大模型教学:基于NC数据的全球气象可视化解决方案

引言 气象数据通常以NetCDF(Network Common Data Form)格式存储,这是一种广泛应用于科学数据存储的二进制文件格式。在大学气象学及相关专业的教学中,掌握如何读取、处理和可视化NC数据是一项重要技能。本文将详细介绍基于Python的NC数据处理与可视化解决方案,包含完整的代…

MediaMtx开源项目学习

这个博客主要记录MediaMtx开源项目学习记录,主要包括下载、推流(摄像头,MP4)、MediaMtx如何使用api去添加推流,最后自定义播放器,播放推流后的视频流,自定义Video播放器博客地址 1 下载 MediaMTX MediaMTX 提供了预编译的二进制文件,您可以从其 GitHub 页面下载: Gi…

Linux安装EFK日志分析系统

目标:能够实现采集指定路径日志到es,用kibana实现日志分析 单es节点集群规划: 主机名IP 地址组件a1192.168.1.111Kibana elasticsearcha2192.168.1.112Fluentda3192.168.1.103Fluentd 1、安装Elasticsearch 1.1添加 Elastic 仓库并安装 E…

Linux(9)——进程(控制篇——下)

目录 三、进程等待 1)进程等待的必要性 2)获取子进程的status 3)进程的等待方法 wait方法 waitpid方法 多进程创建以及等待的代码模型 非阻塞的轮训检测 四、进程程序替换 1)替换原理 2)替换函数 3&…

E. Melody 【CF1026 (Div. 2)】 (求欧拉路径之Hierholzer算法)

E. Melody 思路 将所有出现过的音量和音高看作一个点,一个声音看作一条边,连接起来。那么很容易知道要找的就是图上的一条欧拉路径(类似一笔画问题) 又已知存在欧拉路径的充要条件为:度数为奇数的点的个数为0或者2个…

粽叶飘香时 山水有相逢

粽叶飘香时 山水有相逢 尊敬的广大客户们: 五月初五,艾叶幽香。值此端午佳节,衡益科技全体同仁向您致以最诚挚的祝福! 这一年我们如同协同竞渡的龙舟,在数字化转型的浪潮中默契配合。每一次技术对接、每轮方案优化&a…

YC-8002型综合变配电监控自动化系统

一 .系统概述 YC-8002型综合变配电监控自动化系统是西安亚川电力科技有限公司为适应广大客户要求,总结多项低 压配电网络自动化工程实例的经验,基于先进的电子技术、计算机和网络通讯等技术自主研发的--套结合本公司网络配电产品的应用于低压配电领域的…

react diff 算法

diff 算法作为 Virtual DOM 的加速器,其算法的改进优化是 React 整个界面渲染的基础和性能的保障,同时也是 React 源码中最神秘的,最不可思议的部分 diff 算法会帮助我们就算出 VirtualDOM 中真正变化的部分,并只针对该部分进行原…

近期手上的一个基于Function Grap(类AWS的Lambda)小项目的改造引发的思考

函数式Function是云计算里最近几年流行起来的新的架构和模式,因为它不依赖云主机,非常轻量,按需使用,甚至是免费使用,特别适合哪种数据同步,数据转发,本身不需要保存数据的业务场景,…

VSCode的下载与安装(2025亲测有效)

目录 0 前言1 下载2 安装3 后记 0 前言 丫的,谁懂啊,尝试了各种办法不行的话,我就不得不拿出我的最后绝招了,卸载,重新安装,我经常要重新安装,所以自己写了一个博客,给自己&#xf…

千库/六图素材下载工具

—————【下 载 地 址】——————— 【​本章下载一】:https://pan.xunlei.com/s/VORW9TbxC9Lmz8gCynFrgdBzA1?pwdxiut# 【​本章下载二】:https://pan.quark.cn/s/829e2a4085d3 【百款黑科技】:https://ucnygalh6wle.feishu.cn/wiki/…

差分S参数-信号与电源完整性分析

差分S参数: 由于差分互连中使用差分信号传递信息,接收器最关心的是差分信号的质量,如果互连通道的S参数能直接反映出对差分信号的影响,对分析问题将方便得多。差分互连通道可以看成是一个四端口网络,激励源为单端信号,…

PostIn V1.1.2版本发布,新增接口评审功能,提升接口质量与合理性

PostIn是一款国产开源免费的接口管理工具,包含项目管理、接口调试、接口文档设计、接口数据MOCK等模块,支持常见的HTTP协议、websocket协议。本周PostIn V1.1.0版本发布,新增接口评审、接口统计功能。 1、版本更新日志 新增 ➢ 接口评审&a…

【论文阅读】User Diverse Preference Modeling by Multimodal Attentive Metric Learning

User Diverse Preference Modeling by Multimodal Attentive Metric Learning 题目翻译:基于多模态注意度量学习的用户不同偏好建模 摘要 提出一个**多模态注意力度量学习(MAML, Multimodal Attentive Metric Learning)**方法,…

【计算机网络】传输层TCP协议——协议段格式、三次握手四次挥手、超时重传、滑动窗口、流量控制、

🔥个人主页🔥:孤寂大仙V 🌈收录专栏🌈:计算机网络 🌹往期回顾🌹: 【计算机网络】传输层UDP协议 🔖流水不争,争的是滔滔不息 一、TCP协议 UDP&…