词法分析和词性标注 自然语言处理

news2025/7/28 1:57:36

目录

一. 概述

1 不同语言的词法分析

2 英语的形态分析

英语单词的形态还原(和正常英语的词法变化一样)

1.有规律变化单词的形态还原

​编辑 2.动词、名词、形容词、副词不规则变化单词的形态还原

3.对于表示年代、时间、百分数、货币、序数词的数字形态还原 

4.合成词的形态还原 

形态分析的一般方法

3 汉语自动分词概要 

歧义切分字段处理

未登录词的识别

汉语自动分词的基本原则

汉语自动分词的辅助原则

4 分词与词性标注结果评价

5 汉语自动分词基本算法

​编辑 未登录词识别


一. 概述

是自然语言中能够独立运用的最小单位, 是自然语言处理的基本单位。自动词法分析就是利用计算机对自然语言的形态(morphology) 进行分析,判断词的结构和类别等。

词性或称词类(Part-of-Speech, POS)是词汇 最重要的特性,是连接词汇到句法的桥梁。

1 不同语言的词法分析

曲折语(如,英语、德语、俄语等):用词的形态变化表示语法关系,一个形态成分可以表示若干种不同的语法意义,词根和词干与语词的附加成分结合紧密。

这类词的形态变化多(如动词时态、名词单复数),重点是 单词识别(如缩写、连字符词)和 形态还原(如将 “worked” 还原为 “work”)。

  • 例如:“can’t” 要拆成 “can + not”,“studies” 还原为 “study”

分析语(孤立语)(如:汉语):没有形态变化,核心是 自动分词(把句子拆成词),但面临很多难题:

  • 分词规范模糊:比如 “花草” 是词,“担水” 是短语还是词?
  • 歧义问题
    • 交集型歧义:如 “研究生物” 可拆成 “研究 / 生物” 或 “研究生 / 物”。
    • 组合型歧义:如 “门把手” 可拆成 “门 / 把手” 或 “门把手”(整体为词)。
  • 未登录词:人名(如 “令计划”)、地名(如 “武夷山”)、新词(如 “微信”)难以识别。

黏着语(如:日语等):分词+形态还原。 (博主只会中英所以也不懂)

2 英语的形态分析

基本任务:单词识别和形态还原

英语单词的形态还原(和正常英语的词法变化一样)

1.有规律变化单词的形态还原

 2.动词、名词、形容词、副词不规则变化单词的形态还原

3.对于表示年代、时间、百分数、货币、序数词的数字形态还原 

4.合成词的形态还原 

形态分析的一般方法

3 汉语自动分词概要 

歧义切分字段处理

1.中国人为了实现自己的梦想 (交集型歧义)

中国/人为/ 了/ 实现/ 自己/ 的/ 梦想

中国人/ 为了/ 实现/ 自己/ 的/ 梦想

中/ 国人/ 为了/ 实现/ 自己/ 的/ 梦想

定义:链长 一个交集型切分歧义所拥有的交集串的集合称为交集串链,它的个数称为链长。

2、门把手弄坏了。(组合型歧义)

门/ 把/ 手/ 弄/ 坏/ 了/ 。

门/ 把手/ 弄/ 坏/ 了/ 。

例如,“将来”、“现在”、“才能”、“学生会”等,都是组合型歧义字段。

未登录词的识别

汉语自动分词的基本原则

1、语义上无法由组合成分直接相加而得到的字串应 该合并为一个分词单位。(合并原则)

例如:不管三七二十一(成语),或多或少(副词 片语),十三点(定量结构),六月(定名结构), 谈谈(重叠结构,表示尝试),辛辛苦苦(重叠结 构,加强程度),进出口(合并结构)

2、语类无法由组合成分直接得到的字串应该合并为一个分词单位。(合并原则)

(1)字串的语法功能不符合组合规律,如:好吃, 好喝,好听,好看等

(2)字串的内部结构不符合语法规律,如:游水等

汉语自动分词的辅助原则

1. 有明显分隔符标记的应该切分之(切分原则)

分隔标记指标点符号或一个词。如:

上、下课→上/ 下课

洗了个澡→洗/ 了/ 个/ 澡

2. 附着性语(词)素和前后词合并为一个分词单位 (合并原则)

例如:“吝”是一个附着语素,“不吝”、“吝于”等合并成一个词;

3. 使用频率高或共现率高的字串尽量合并为一个分词 单位 (合并原则)

如:“进出”、“收放”(动词并列);“大笑”、 “改称”(动词偏正);“关门”、“洗衣”、 “卸货”(动宾结构);“春夏秋冬”、“轻重 缓急”、“男女”(并列结构);“象牙”(名 词 偏正);“暂不”、“毫不”、“不再”等。

4. 双音节加单音节的偏正式名词尽量合并为一个分词单位 (合并原则)

如:“线、权、车、点”等所构成的偏正式名词: “国际线、分数线、贫困线”、“领导权、发言权、 知情权”、“垃圾车、交通车、午餐车”、“立足 点、共同点、着眼点”等。

5. 双音节结构的偏正式动词应尽量合并为一个分词单位 (合并原则)

本原则只适合少数偏正式动词,如:“紧追其后”、 “组建完成”等,不适合动宾及主谓式复合动词。

6.内部结构复杂、合并起来过于冗长的词尽量切分 (切分原则)

4 分词与词性标注结果评价

正确率(Correct ratio/Precision, P ): 测试结果中 正确切分或标注的个数占系统所有输出结果的比例。假设系统输出N个,其中,正确的结果为n个,那么

5 汉语自动分词基本算法

有词典切分/ 无词典切分

基于规则的方法/ 基于统计的方法

1. 最大匹配法 (Maximum Matching, MM) -有词典切分,机械切分

简单说,就是把句子拆成字,用词典找能组成的词,然后选拆分后词数量最少的那种结果,就像拼拼图,找最简洁的拼法 。

 未登录词识别

 

  • 想判断 “某字符串是不是姓名”,就用 概率估值公式,把 “姓的常见度” 和 “名的字的常见度” 相乘,算个数值。
  • 想知道 “姓 + 名” 至少得有多 “常见” 才算合理姓名,就用 最小阈值公式,找名里最冷门的组合,再和姓的常见度相乘,得到一个 “底线数值”。
  • 实际应用里,比如电脑识别姓名时,会拿计算出的 P(Cname) 和 Tmin​(X) 比,超过阈值就认为是姓名,没超过就排除~

 

 如何确定地名?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2405893.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

QT聊天项目DAY14

1. 客户端登录 1.1 初始化玩家头像 将头像的大小固定在250 * 250 void InitHeadImage(); // 初始化头像/* 初始化头像 */ void LoginWidget::InitHeadImage() {// 加载头像QPixmap OriginalPixmap(":/Chat/Images/head_5.jpg");OriginalPixmap …

架构设计技巧——架构设计模板

一份实用、高效、覆盖核心要素的架构设计模板是确保设计质量、促进团队沟通和指导实施的关键。以下是一个经过提炼的架构设计文档核心模板框架,结合了业界最佳实践,并强调灵活裁剪: 架构设计文档模板 (核心框架) 文档标识 项目/系统名称&a…

【Ragflow】27.RagflowPlus(v0.4.1):小版本迭代,问题修复与功能优化

概述 RagflowPlus v0.4.0 在发布后,收到了积极的反馈,同时也包含一些问题。 本次进行一轮小版本更新,发布 v0.4.1 版本,对已知问题进行修复,并对部分功能进行进一步优化。 开源地址:https://github.com/…

【Oracle】数据仓库

个人主页:Guiat 归属专栏:Oracle 文章目录 1. 数据仓库概述1.1 为什么需要数据仓库1.2 Oracle数据仓库架构1.3 Oracle数据仓库关键技术 2. 数据仓库建模2.1 维度建模基础2.2 星形模式设计2.3 雪花模式设计2.4 缓慢变化维度(SCD)处…

基于开源AI大模型AI智能名片S2B2C商城小程序源码的中等平台型社交电商运营模式研究

摘要:本文聚焦中等平台型社交电商,探讨其与传统微商及大型社交电商平台的差异,尤其关注产品品类管理对代理运营的影响。通过引入开源AI大模型、AI智能名片与S2B2C商城小程序源码技术,构建智能化运营体系。研究结果表明&#xff0c…

Vite 双引擎架构 —— Esbuild 概念篇

Vite 底层采用 双引擎架构,核心构建引擎是 Esbuild 和 Rollup,二者在开发和生产环境中分工协作,共同实现高性能构建。不可否认,作为 Vite 的双引擎之一,Esbuild 在很多关键的构建阶段(如依赖预编译、TS 语法转译、代码…

阿里云Alibaba Cloud安装Docker与Docker compose【图文教程】

个人记录 进入控制台,找到定时与自动化任务 进入‘安装/卸载扩展程序’ 点击‘安装扩展程序’ 选择docker社区版,点击下一步与确定,等待一会 安装成功 查询版本 查询docker sudo docker version查询docker compose sudo docker compo…

ADB识别手机系统弹授权框-如何处理多重弹框叠加和重叠问题

ADB识别手机系统弹授权框-如何处理多重弹框叠加和重叠问题 --蓝牙电话SDK自动部署 上一篇:手机App-插入USB时自动授权点击确定按钮-使系统弹出框自动消失 下一篇:编写中。 一、前言 我们在上一篇《手机App-插入USB时自动授权点击确定按钮-使系统弹出框…

uniapp+<script setup lang=“ts“>解决有数据与暂无数据切换显示,有数据加载时暂无数据闪现(先加载空数据)问题

声明showEmpty 为false&#xff0c;在接口返回处判断有数据时设置showEmpty 为false&#xff0c;接口返回数据为空则判断showEmpty 为true &#xff08;这样就解决有数据的时候会闪现暂无数据的问题啦&#xff09; <!--* Date: 2024-02-26 03:38:52* LastEditTime: 2025-06…

详解鸿蒙Next仓颉开发语言中的动画

大家上午好&#xff0c;今天来聊一聊仓颉开发语言中的动画开发。 仓颉中的动画通常有两种方式&#xff0c;分别是属性动画和显示动画&#xff0c;我们今天以下面的加载动画为例&#xff0c;使用显示动画和属性动画分别实现一下&#xff0c;看看他们有什么区别。 显示动画 显示…

Redis常见使用场景解析

1. 数据库缓存 Redis 作为典型的 Key-Value 型内存数据库,数据缓存是其最广为人知的应用场景。使用 Redis 缓存数据操作简便,通常将序列化后的对象以 string 类型存储。但在实际应用中,需注意以下关键要点: Key 设计:必须确保不同对象的 Key 具有唯一性,且尽量缩短长度,…

起重机指挥人员在工作中需要注意哪些安全事项?

起重机指挥人员在作业中承担着协调设备运行、保障作业安全的关键职责&#xff0c;其安全操作直接关系到整个起重作业的安全性。以下从作业前、作业中、作业后的全流程&#xff0c;详细说明指挥人员需注意的安全事项&#xff1a; 一、作业前的安全准备 资质与状态检查&#xff…

JAVA-springboot log日志

SpringBoot从入门到精通-第8章 日志的操作 一、Spring Boot默认的日志框架 SpringBoot支持很多种日志框架&#xff0c;通常情况下&#xff0c;这些日志框架都是由一个日志抽象层和一个日志实现层搭建而成的&#xff0c;日志抽象层是为记录日志提供的一套标准且规范的框架&…

1.springmvc基础入门(一)

1.Spring MVC概念 Spring MVC 是 Spring Framework 提供的 Web 组件&#xff0c;全称是 Spring Web MVC&#xff0c;是⽬前主流的实现 MVC 设计模式的框架&#xff0c;提供前端路由映射、视图解析等功能。 Java Web 开发者必须要掌握的技术框架。 2.Spring MVC 功能 MVC&am…

模块缝合-把A模块换成B模块(没写完)

把MLP Head替换为KAN 1.在model文件下新建一个python文件 2.把 模块文件里的整个KAN代码复制到新的python文件中 3.在开头导入 from model.KAN(新建文件名&#xff09; import KAN&#xff08;新建文件中的类名&#xff09; 4.sys.path.append(r"D: Icode(Kansformer"…

从零开始学Flink:揭开实时计算的神秘面纱

一、为什么需要Flink&#xff1f; 当你在电商平台秒杀商品时&#xff0c;1毫秒的延迟可能导致交易失败&#xff1b;当自动驾驶汽车遇到障碍物时&#xff0c;10毫秒的计算延迟可能酿成事故。这些场景揭示了一个残酷事实&#xff1a;数据的价值随时间呈指数级衰减。 传统批处理…

Appium如何支持ios真机测试

ios模拟器上UI自动化测试 以appiumwebdriverio为例&#xff0c;详细介绍如何在模拟器上安装和测试app。在使用ios模拟器前&#xff0c;需要安装xcode&#xff0c;创建和启动一个simulator。simulator创建好后&#xff0c;就可以使用xcrun simctl命令安装被测应用并开始测试了。…

JDK17 Http Request 异步处理 源码刨析

为什么可以异步&#xff1f; #调用起始源码 // 3. 发送异步请求并处理响应 CompletableFuture future client.sendAsync( request, HttpResponse.BodyHandlers.ofString() // 响应体转为字符串 ).thenApply(response -> { // 状态码检查&#xff08;非200系列抛出异常&…

【Zephyr 系列 8】构建完整 BLE 产品架构:状态机 + AT 命令 + 双通道通信实战

🧠关键词:Zephyr、BLE、状态机、双向透传、AT 命令、Buffer、主从共存、系统架构 📌适合人群:希望开发 BLE 产品(模块/标签/终端)具备可控、可测、可维护架构的开发者 🧭 引言:从“点功能”到“系统架构” 前面几篇我们已经逐步构建了 BLE 广播、连接、数据透传系统…

【Mac 从 0 到 1 保姆级配置教程 16】- Docker 快速安装配置、常用命令以及实际项目演示

文章目录 前言1. Docker 是什么&#xff1f;2. 为什么要使用 Docker&#xff1f; 安装 Docker1. 安装 Docker Desktop2. 安装 OrbStack3. Docker Desktop VS OrbStack5. 验证安装 使用 Docker 运行项目1. 克隆项目到本地2. 进入项目目录3. 启动容器: 查看运行效果1. OrbStack 中…