自然语言处理期末通关指南:核心知识点梳理与高频考题解析
1. 自然语言处理基础概念与核心挑战自然语言处理NLP是让计算机理解、解释和生成人类语言的技术。想象一下你教一个完全不懂中文的外国人学汉语首先要教他词汇苹果是什么然后教语法吃苹果和苹果吃的区别最后还要让他理解这个苹果很苹果这样的抽象表达——这就是NLP要解决的核心问题。语言的多维度解析就像剥洋葱词法层处理单词的构成和变形。比如running可以拆分为runing句法层分析句子结构。猫抓老鼠和老鼠抓猫因词序不同而意义相反语义层理解真实含义。当有人说会议室空调太给力可能是在暗示温度太低语用层结合上下文理解。回答能关下窗吗时正常人不会只说能而是会实际去关窗典型考题解析 (简答题) 举例说明NLP中的歧义类型语音歧义音乐和音月拼音相同词义歧义苹果指水果还是手机品牌结构歧义进口汽车可理解为动宾结构或偏正结构指代歧义小李告诉小王他通过了他指代不明2. 文本预处理与词汇分析实战中文分词是NLP的敲门砖。举个例子结婚的和尚未结婚的应该切分为结婚/的/和/尚未/结婚/的还是结婚/的/和尚/未/结婚/的这种组合型歧义正是分词的难点所在。分词算法三剑客基于词典的最大匹配法像查字典一样匹配最长词语def max_match(sentence, word_dict): result [] while sentence: for i in range(len(sentence), 0, -1): if sentence[:i] in word_dict: result.append(sentence[:i]) sentence sentence[i:] break else: result.append(sentence[0]) sentence sentence[1:] return result基于统计的CRF模型用概率模型判断最佳切分基于深度学习的BiLSTMCRF结合神经网络的特征提取能力词性标注的经典问题 (编程题) 用HMM实现词性标注时遇到未登录词怎么办方案1设置默认概率假设未登录词等概率出现所有词性方案2用构词规则判断如带们的是代词带很的是形容词方案3结合字形特征如有限公司大概率是机构名3. 句法分析的两种范式对比成分句法分析就像搭积木把句子拆解成主谓宾定状补的模块。分析那个穿红衣服的女孩吃苹果会得到[S [NP [DP 那个] [NP [VP 穿红衣服] 的女孩]] [VP 吃 [NP 苹果]]]而依存句法分析则关注词与词之间的主从关系上述句子会分析为吃(root) ├─ 女孩(nsubj) │ ├─ 那个(det) │ └─ 穿(acl) │ └─ 衣服(dobj) │ └─ 红(amod) └─ 苹果(dobj)高频考题 (综合题) 比较成分语法和依存语法的区别表示形式树状结构 vs 依存图分析重点短语组合 vs 词间关系应用场景机器翻译常用成分树关系抽取多用依存分析工具对比Stanford Parser vs SpaCy4. 语义表示与预训练模型演进从One-Hot到Word2Vec就像从手写通讯录升级到智能联系人管理# One-Hot表示 苹果 [1,0,0,0] 香蕉 [0,1,0,0] 橙子 [0,0,1,0] # Word2Vec表示 苹果 [0.12, -0.56, 0.32] 香蕉 [0.11, -0.55, 0.31] 橙子 [0.87, 0.45, -0.23]预训练模型三巨头BERT像完形填空高手擅长理解任务创新点双向Transformer、MLM任务缺点不适合生成任务GPT故事接龙专家擅长文本生成特点自回归、超大参数量示例给定从前有座山能续写完整故事BART全能选手兼顾理解与生成优势seq2seq结构、去噪训练应用文本摘要、对话生成典型考题 (论述题) 比较BERT和GPT的异同相同点都使用Transformer、都经过预训练不同点BERT双向上下文GPT单向自回归BERT适合分类任务GPT擅长生成BERT有[CLS]特殊标记GPT用
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2418083.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!