bert-bilstm-crf提升NER模型效果的方法

bert-bilstm-crf提升NER模型效果的方法

news2025/11/1 4:04:48

1.统一训练监控指标和评估指标

评估一个模型的最佳指标是在实体级别计算它的F1值，而不是token级别计算它的的准确率）。自定义一个f1值的训练监控指标传给回调函数

Preliminary

TP：实际为P，预测为P

TN：实际为N，预测为N

FP：实际为N，预测为P

FN：实际为P，预测为N

如何记忆：

TP/TN: 以T开头，表明预测正确，预测即为第二个字母

FP/FN: 以F开头，表明预测错误，预测与第二个字母相反

Accuracy

最简单也是最好理解的，也是我们很早就开始接触的一个指标就是准确率，即预测正确的样本除以总样本数

Recall, Precision, F1

Recall（召回率）：预测正确的正类在正类样本中的比例（针对于样本真实情况）

Precision（精确率）：预测正确的正类在预测为正类中的比例（针对于预测情况）

F1:两者通常难以兼得，因此引入两者的调和平均，来得到一个trade-off的值

2、学习率衰减策略

学习率是深度学习中的一个重要的超参，如何调整学习率是训练出好模型的关键要素之一。

在训练过程中，一般根据训练轮数设置动态变化的学习率。

刚开始训练时：学习率以 0.01 ~ 0.001 为宜。

一定轮数过后：逐渐减缓。

接近训练结束：学习速率的衰减应该在 100 倍以上。

两种学习率衰减模式，一种为线性衰减，一种为指数衰减。

如果学习率过小，梯度下降很慢，如果学习率过大，如 Andrew Ng 的 Stanford 公开课程所说梯度下降的步子过大可能会跨过最优值。不同的学习率对 loss 的影响如下图所示：

3、分层设置学习率，非bert层要大

在使用bert或者其它预训练模型进行微调，下接其它具体任务相关的模块时，会面临这样一个问题，bert由于已经进行了预训练，参数已经达到了一个较好的水平，如果要保持其不会降低，学习率就不能太大，而下接结构是从零开始训练，用小的学习率训练不仅学习慢，而且也很难与BERT本体训练同步。因此在训练时候就需要对预训练层设置较小学习率，对下接层设置较大学习率。

4、使用对抗训练提升模型鲁棒性

对抗训练是一种能有效提高模型鲁棒性和泛化能力的训练手段，其基本原理是通过在原始输入上增加对抗扰动（噪声），得到对抗样本，再利用对抗样本进行训练，从而提高模型的表现。

5、更精细化的调参

调整learning_rate or batch_size or lamb等等

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/175379.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【Java IO流】缓冲流及原理详解

【Java IO流】缓冲流及原理详解

文章目录前言字节缓冲流原理字符缓冲流Java编程基础教程系列前言前面我们已经学习了四种对文件数据操作的基本流，字节输入流，字节输出流，字符输入流，字符输出流。为了提高其数据的读写效率，Java中又定义了四种缓冲流…

阅读更多...

LwIP系列--内存管理（堆内存）详解

LwIP系列--内存管理（堆内存）详解

一、目的小型嵌入式系统中的内存资源（SRAM）一般都比较有限，LwIP的运行平台一般都是资源受限的MCU。基于此为了能够更加高效的运行，LwIP设计了基于内存池、内存堆的内存管理以及在处理数据包时的pbuf数据结构。本篇的主要目的是介绍…

阅读更多...

Ubuntu22.10安装和配置R/FSL/Freesurfer

Ubuntu22.10安装和配置R/FSL/Freesurfer

2018年购入的台式机，一直处于吃灰状态，决定安装Ubuntu方便学习和使用一些基于Linux系统的软件。本文记录相关软件的安装和配置。>安装Ubuntu22.10<到官网下载ISO文件。将一个闲置U盘通过Rufus制作为安装盘。重启按F11设置引导盘，选择U盘…

阅读更多...

国家实用新型发明专利：一种机器视觉的流水线智能检测报警系统

国家实用新型发明专利：一种机器视觉的流水线智能检测报警系统

国家实用新型发明专利：一种机器视觉的流水线智能检测报警系统【系统装置设计图】文章目录国家实用新型发明专利：一种机器视觉的流水线智能检测报警系统【说明书摘要】【权利要求书】【说明书】***技术领域******背景技术******发明内容******有益效果…

阅读更多...

C++类和对象(上)：封装与this指针

C++类和对象(上)：封装与this指针

目录一.前言二. 类的引入和定义 1.C和C结构体的区别 2.C类的定义 3.类的成员方法的声明和定义是可分离的三.面向对象之封装特性 1.封装思想的介绍 2.类封装编程模式的优点四. 类实例(对象)的内存模型五.this指针章节导图： 一.前言面向过程和面向对…

阅读更多...

分享167个PHP源码，总有一款适合您

分享167个PHP源码，总有一款适合您

PHP源码分享167个PHP源码，总有一款适合您下面是文件的名字，我放了一些图片，文章里不是所有的图主要是放不下...， 167个PHP源码下载链接：https://pan.baidu.com/s/1fzoQ4_4VXc1e1ZHOUKuhbQ?pwdsb6s 提取码&#x…

阅读更多...

数学表达式的处理

数学表达式的处理

概述在OJ上会遇到一些这样的题目： 小明同学写数学四则运算，有把括号写多、写少、写错的情况，比如（AB)*(C-D ，请你输入一个表达式，判断此表达式的括号是否正确(不考虑运算的结果正确性)。每次我看到 &q…

阅读更多...

【操作系统】—— Windows压缩工具 “ Bandizip与7-zip ”（带你快速了解）

【操作系统】—— Windows压缩工具 “ Bandizip与7-zip ”（带你快速了解）

📜 “作者久绊A” 专注记录自己所整理的Java、web、sql等，IT技术干货、学习经验、面试资料、刷题记录，以及遇到的问题和解决方案，记录自己成长的点滴。 🍁 操作系统【带你快速了解】对于电脑来说，如果说…

阅读更多...

Python OpenCV 图片滑块验证码滑块图片验证码自动识别方案模板匹配识别识别成功率调试源码分析通用解决方案

Python OpenCV 图片滑块验证码滑块图片验证码自动识别方案模板匹配识别识别成功率调试源码分析通用解决方案

前言通过本专栏前面两篇文章大家已对图片滑块验证码有了初步的了解，对于滑块验证的实现和校验原理有了一定的了解，通过由浅入深的实战案例可直接应用于实战，对于滑块如何在前端实现滑动或接口调用可自行查阅相关资料实现，本文主要讲解滑块验证码模板匹配识别的通用解决…

阅读更多...

史上最详细的AVL树的实现(万字+动图讲解旋转)

史上最详细的AVL树的实现(万字+动图讲解旋转)

🔥🔥 欢迎来到小林的博客！！ 🛰️博客主页：✈️小林爱敲代码 🛰️文章专栏：✈️小林的C之路 🛰️欢迎关注：&#x1f44d…

阅读更多...

[Python从零到壹] 六十三.图像识别及经典案例篇之图像漫水填充分割应用

[Python从零到壹] 六十三.图像识别及经典案例篇之图像漫水填充分割应用

祝大家新年快乐，阖家幸福，健康快乐！ 欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲…

阅读更多...

创建者模式-原型模式

创建者模式-原型模式

1.概述用一个已经创建的实例作为原型，通过复制该原型对象来创建一个和原型对象相同的新对象 2.结构原型模式包含如下角色： 抽象原型类：规定了具体原型对象必须实现的的 clone() 方法。具体原型类：实现抽象原型类的 clone() …

阅读更多...

Spring AOP与Spring 事务

Spring AOP与Spring 事务

一、AOP讲解创建普通对象UserService Component public class UserService{Autowiredprivate OrderService orderService;public void test(){System.out.println(orderService);}}创建代理对象UserServiceProxy，对test（）方法进行切面编程…

阅读更多...

SSM项目 - 博客系统

SSM项目 - 博客系统

1.SSM 版本的博客系统相较于 Servlet 版本的升级1. 框架升级 : SSM (SpringBoot Spring MVC MyBatis) MySQL Redis jQuery.2. 密码升级: 明文存储/md5存储 -> 加盐处理.3. 用户登录状态持久化升级: session 持久化到内存 - > session 持久化到 Redis. (后期有空实现…

阅读更多...

cmake 03 一个可用的 cmake 工程应当是什么样的

cmake 03 一个可用的 cmake 工程应当是什么样的

cmake 学习笔记代码地址: https://gitcode.net/u014254963/cmake-study/-/tree/master/hello_cmake_project https://gitcode.net/u014254963/cmake-study/-/tree/master/hello_cmake_project_vs 本文目标多目录构建引用自己写的动态库关于单元测试的一些实践使用 python 脚…

阅读更多...

Pandas-DataFrame基础知识点总结

Pandas-DataFrame基础知识点总结

1、DataFrame的创建 DataFrame是一种表格型数据结构，它含有一组有序的列，每列可以是不同的值。DataFrame既有行索引，也有列索引，它可以看作是由Series组成的字典，不过这些Series公用一个索引。 DataFrame的创建有多种…

阅读更多...

JavaEE-多线程初阶4

JavaEE-多线程初阶4

✏️作者：银河罐头 📋系列专栏：JavaEE 🌲“种一棵树最好的时间是十年前，其次是现在” 目录多线程案例阻塞队列阻塞队列是什么生产者消费者模型标准库中的阻塞队列阻塞队列实现定时器定时器是什么标准库中的定时器实现定…

阅读更多...

(第107篇)C规范编辑笔记(十三)

(第107篇)C规范编辑笔记(十三)

往期文章： C规范编辑笔记(一) C规范编辑笔记(二) C规范编辑笔记(三) C规范编辑笔记(四) C规范编辑笔记(五) C规范编辑笔记(六) C规范编辑笔记(七) C规范编辑笔记(八) C规范编辑笔记(九) C规则编辑笔记(十) C规范编辑笔记(十一) C规范编辑笔记(十二) 正文&#xff…

阅读更多...

行人属性识别研究综述（二）

行人属性识别研究综述（二）

文章目录6 PAR（行人属性识别）算法综述6.1全局基于图像的模型6.1.1 ACN (iccvw-2015)6.1.2 DeepSAR and DeepMAR (ACPR-2015) [6]6.1.3 MTCNN (TMM-2015) [7]6.2 基于部件的模型6.2.1 Poselets (ICCV-2011)6.2.2 rad (iccv-2013)6.2.3 PANDA (cvp -2014) …

阅读更多...

Java-IO知识详解（一）

Java-IO知识详解（一）

分类分类（传输，操作）IO理解分类 - 从传输方式上字节流字符流字节流和字符流的区别IO理解分类 - 从数据操作上文件(file)数组([])管道操作基本数据类型缓冲操作打印对象序列化反序列化转换装饰者模式分类（传输，操作&…

阅读更多...

推荐文章

最新文章