论文阅读【8】Conditional Random Fields: An Introduction

news2025/8/6 6:14:36

1.概述

1.1 论文相关

这篇论文是介绍一个经典模型,条件随机场(CRF)。在很多领域中都存在序列标注任务,例如生物信息识别,计算机语言学和语音识别任务,其中自然语言处理中的词性标注任何和命名实体识别任务就是典型的序列标注任务。
通常所用到的方法都是使用隐马尔科夫模型(HMMS)或者使用概率有限状态自动机( probabilistic finite-state automata)去做词性标注任务。HMMS是生成模型的一种形式,它定义了一个联合概率分布p(X,Y),其中X和Y分别是分布在观察序列及其相应的标签序列上的随机变量。生成模型必须枚举所有可能的观察序列——对于大多数领域来说,这一任务是难以处理的,除非观察元素被表示为孤立的单元,独立于观察序列中的其他元素。更准确地说,在任意的给定的一个时间,这些观察元素取决于当前这个状态或者标签。对于一些简单的数据集而言,这是一个合理的假设。然而,大多数真实世界的观测序列最好地表现为多重相互作用的特征和观测元素之间的长期依赖关系。

1.2 动机

这种表示问题是标记顺序数据时最基本的问题之一,简而言之,一个模型支持可处理推理是非常有必要的,然而,一个表示数据不做出不合理的独立性假设的模型也是可取的。满足这两个标准的一种方法是使用一个模型,该模型在给定特定观察序列x的标签序列上定义一个条件概率p(Y |x),而不是在标签和观察序列上的联合分布。条件模型被用来标记一个新的观测序列x通过选择标签序列y这使条件概率p (y|x).这种模型的条件性质意味着,在对观察结果进行建模上不浪费任何精力,而且人们不必对这些序列做出毫无根据的独立假设;观测数据的任意属性可以被模型捕获,而建模者不必担心这些属性是如何关联的。
条件随机场(CRFs)是一个用于标记和分割顺序数据的概率框架,基于上一段中所述的有条件的方法。CRF是一种无向图形模型的形式,它在给定一个特定的观察序列的标签序列上定义了一个单一的对数线性分布。与隐马尔可夫模型相比,crf的主要优势是它们的条件性质,导致HMM所要求的独立性假设的放松,以确保可处理的推理。此外,CRFs避免了标签偏差问题,这是最大熵马尔可夫模型(MEMMs)和其他基于有向图形模型的条件马尔可夫模型所表现出的一个弱点。CRFs在许多真实世界的序列标记任务上都优于MEMM和HMM。

2.算法

2.1 特征函数

给定以下定义:
x ˉ \bar{x} xˉ:表示一个时序类型的数据(sequence of abservation)
y ˉ \bar{y} yˉ:表示的是一个tags序列,这些tags可以表示词性,也可以表示一个实体标签(sequence of tags)
定义一个特征函数:

如何定义一个条件概率函数去计算他们之间的关系呢?
p ( y ˉ ∣ x ˉ ; w ) = 1 z ( x ˉ , w ) e x p ∑ j = 1 J w i F j ( x ˉ , y ˉ ) p(\bar{y}|\bar{x};w)=\frac{1}{z(\bar{x},w)}exp\sum_{j=1}^{J} w_iF_j(\bar{x},\bar{y}) p(yˉxˉ;w)=z(xˉ,w)1expj=1JwiFj(xˉ,yˉ)
不同时序的长度不同,如果根据不通的时序,去抽取相应的特征呢?
p ( y ˉ ∣ x ˉ ; w ) = 1 z ( x ˉ , w ) e x p ∑ j = 1 J w i ∑ i = 2 n f j ( y i − 1 , y i , x ˉ , i ) p(\bar{y}|\bar{x};w)=\frac{1}{z(\bar{x},w)}exp\sum_{j=1}^{J} w_i \sum_{i=2}^{n} f_j(y_{i-1},y_i,\bar{x},i) p(yˉxˉ;w)=z(xˉ,w)1expj=1Jwii=2nfj(yi1,yi,xˉ,i)
这个式子就是把整个的时序拆分成了多个feature,然后再进行加权平均,这样就不管他的时长是多少,最后得到的都是一个num.
在这里插入图片描述

2.2 推理过程

给定参数w,观测值 x ˉ \bar{x} xˉ求助最合适的 y ˉ \bar{y} yˉ,计算过程如下
$\hat{y}=arg,\max_{\bar{y}} $
为了求解上面过程,需要使用到维特比算法:
在这里插入图片描述

2.3 评估模型参数w

在这里插入图片描述
实在学不下去了,这个计算参数w使用的是梯度下降算法,后续有空再把笔记补齐.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/34640.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JS 数据结构:链表

单链表 每个节点中只包含一个指针域的链表称为单链表。 头结点—其指针域指向表中第一个结点的指针(头结点不是必须的,只是习惯上加上头结点,而头结点的数据域一般记录的是该链表的相关数据,如:链表长度)…

Redis-Linux中安装Redis、命令操作Redis

目录 一、Redis简介 NoSQL与SQL的区别 二、Linux上安装redis 上传并解压redis.gz 进入 redis的解压目录,执行命令 make ​编辑 修改redis为守护进程 们测试一下能否远程连接RedisDesktopManager客户端 开放6379端口 授权,允许远程连接 三、redis命…

小程序上新(2022.10.13~11.14)

20221101 【官方公告】境外主体小程序补充信息存储地区通知20221103 小程序基础库 2.27.1 更新 新增 框架 新增 xr-fame 能力,kanata 更新 详情新增 组件 map 组件新增 bindrendersuccess 属性 详情 (官方文档还查不到这个)新增 API 新增 wx.getRendererUserAgen…

tep时隔8个月迎来重大全新升级

tep此次更新,旨在从“工具”升级为“框架”,为此做了大量的代码整洁工作,重新设计了部分功能,项目脚手架也焕然一新。 功能展示 conftest.py 脚手架生成的conftest.py只有一行代码: fixture自动加载等操作都隐藏到了te…

【学习笔记22】JavaScript数组的练习题

笔记首发 一、已知一个排序好的数组 将数字按照原有顺序插入到数组内 var arr [10, 20, 30, 40, 50];var n 11;// 1. 将n插入数组中arr.push(n);// 2. 冒泡排序for (var k 0; k < arr.length - 1; k) {for (var i 0; i < arr.length - 1 - k; i) {if (arr[i] > …

antd——使用a-tree组件实现 检索+自动展开+自定义增删改查功能——技能提升

之前写后台管理系统时&#xff0c;遇到一个下面的需求&#xff0c;下面是最终完成的效果图。 实现的功能有&#xff1a; 1. 下拉 选择不同的类型——就是一个普通的select组件&#xff0c;下面并不做介绍 2. 通过关键字可以进行tree树形结构的筛选&#xff0c;然后将筛选后的…

数据结构学习笔记——查找算法

目录前言一、查找的相关概念&#xff08;一&#xff09;内查找和外查找&#xff08;二&#xff09;静态查找和动态查找&#xff08;三&#xff09;平均查找长度二、线性查找&#xff08;一&#xff09;顺序查找1、查找思想2、算法分析3、有序表的顺序查找&#xff08;二&#x…

gitlab-runner 的安装使用(含 .gitlab-ci.yml 的简单使用)

简介 GitLab Runner 是一个开源项目&#xff0c;用于运行您的作业并将结果发送回 GitLab。它与 GitLab CI 一起使用&#xff0c;GitLab CI 是 GitLab 随附的开源持续集成服务&#xff0c;用于协调作业。 简单理解就是一个服务放在那儿&#xff0c;当你提交代码时&#xff0c;…

[附源码]java毕业设计在线课程网站

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

腾讯安全SOC+能力图谱正式发布,助力政企构建闭环安全运营体系

随着云计算、人工智能、5G等新兴技术的融合发展&#xff0c;数字化转型正成为企业数字经济时代的重要发展路径。然而&#xff0c;数字化转型过程中IT架构的重塑、安全产品体系化能力不足带来的安全运营挑战&#xff0c;使得企业在业务突破上面临安全瓶颈。 面对网络安全事件频…

做一个微信小程序需要多少钱?

做一个微信小程序需要多少钱&#xff1f; 如果是选择套用小程序模板&#xff0c;自建的方式的话&#xff0c;价格是在698-3498元一年的。 如果是代建小程序的话&#xff0c;需要在自建的费用上&#xff0c;再加上1500-12000元的代建费用。 下面主要给大家讲讲698-3498元这个…

Spring依赖注入源码解析(上)

文章目录前言一、Spring中到底有几种依赖注入的方式&#xff1f;1、手动注入1.1、set方法进行注入1.2、通过构造方法进行注入2、自动注入2.1、XML的autowire自动注入2.2、Autowired注解的自动注入二、autowireByName && autowireByType核心源码分析2.1、autowireByName…

最新最全的JavaScript入门视频,包含小程序和uniapp相关的JavaScript知识学习

写在前面 我们学习JavaScript不仅可以用于web网站开发&#xff0c;也可以用于小程序&#xff0c;uniapp项目的开发&#xff0c;所以我们学习JavaScript很重要。 准备工作 我们这里学习JavaScript用的是小程序开发者工具或者uniapp开发者工具&#xff0c;所以需要你先装好这两…

基于Servlet+jsp+mysql开发javaWeb学生管理系统(学生信息、学生选课、学生成绩、学生签到考勤)

你知道的越多&#xff0c;你不知道的越多 点赞再看&#xff0c;养成习惯 如果您有疑问或者见解&#xff0c;或者没有积分想获取项目&#xff0c;欢迎指教&#xff1a; 企鹅&#xff1a;869192208 文章目录一、开发背景二、 需求分析三、开发环境四、运行效果五、开发流程工程目…

【web前端开发】HTML知识点超详细总结

文章目录什么是网页常用的浏览器及内核VScode和WebStrom使用HTML常用标签文档类型<!DOCTYPE>网页语言lang字符集title标签标题标签段落和换行标签文本格式化标签div和span标签图像标签路径相对路径同一级路径上一级路径:下一级路径绝对路径链接标签超链接标签外部链接:内…

为什么心脏长在左边?

人体各项生命活动的正常维持&#xff0c;都离不开血液循环系统输送营养和代谢废物&#xff0c;而给全身输送血液的动力器官就是心脏。可以说&#xff0c;心脏是人体的发动机。不过&#xff0c;你有没有思考过&#xff0c;为什么心脏会长在我们身体的左边呢&#xff1f; 为了解释…

css ppt操作面板 预览时其中标签定位问题

最近用网页写了一个类似PPT页面板操作功能&#xff0c;就是把文本框和图片放入操作面板后&#xff0c;手动拖动到自定义位置&#xff0c;并可以控制文本框和图片大小&#xff0c;但是在预览时位置怎么都放不对&#xff0c;可能跟我css知识不扎实有关&#xff0c;两天没解决&…

从一道题到贪心入门

今天,我们将从一道题引入贪心算法的认识. 题目 题目描述 又是一年秋季时&#xff0c;陶陶家的苹果树结了 n 个果子。陶陶又跑去摘苹果&#xff0c;这次他有一个 a 公分的椅子。当他手够不着时&#xff0c;他会站到椅子上再试试。 这次与 NOIp2005 普及组第一题不同的是&#x…

搭建ESP8266开发环境

获取工具 安信可一体化开发环境 Source insight (本菜鸟不太喜欢用Eclipse) 安装 安装ESP8266开发环境(Windows) 1)双击运行解压到文件 2)安装方式一:eclipse 双击运行ConfigTool.exe点击 Default 可以检测当前所在路径&#

图神经网络关系抽取论文阅读笔记(三)

1 用于关系提取的注意引导图卷积网络&#xff08;Attention Guided Graph Convolutional Networks for Relation Extraction&#xff0c;2020&#xff09; 论文&#xff1a;Attention Guided Graph Convolutional Networks for Relation Extraction&#xff0c;2020 1.1 引言 依…