1. NLP课程大纲

news2026/5/24 1:09:10

NLP 学习大纲自然语言处理入门文本预处理RNN及其变体Transformer迁移学习1. 自然语言处理入门1.1 什么是自然语言处理计算机科学与语言学中关注于计算机与人类语言间转换的领域1.2 AI 的几个时间点1️⃣ CV领域 2012年分水岭2012年alxnet网络出现用深度学习的方法解决 CV问题2️⃣ NLP领域 2017年分水岭2017年之前使用传统的机器学习技术还有经典的循环网络来解决问题2017年之后深度学习技术来解决 NLP的问题 - 预训练模型1.3 自然语言处理的应用场景语言助手、机器翻译、搜索引擎、文本摘要、文本分类2. 文本预处理2.1 什么是文本预处理将文本语料进行一系列的预处理符合模型输入自然语言处理就是处理文本的文本即一段话或者字符串需要把文本进行一系列预处理让它符合模型的输入但模型只认识数字不认识中文、英文即其它所以需要把文本处理成模型可识别的形式处理的手段如下2.2 文本处理的基本方法1️⃣ 分词2️⃣ 命名实体识别3️⃣ 词性标注2.3 文本张量的表示方法1️⃣ 什么是张量就是把一段文本变成一个向量如何变先分词每个单词变成一个向量把这些单词拼接到一块变成一句话的向量此为文本张量2️⃣ 张量的作用3️⃣ 实现方式one-hot编码、Word2vec、Word Embedding对于张量的实现方式① one-hot是所有文本张量表示的鼻祖机器学习中通过get_dummies方法churn_df pd.get_dummies(churn_df, columns[Churn, gender])【案例之逻辑回归_电信用户流失预测】② 其次是Word2vecWord2vec包含两种CBOW、Skip-gram③ 最后是词嵌入nn.Embedding现在主要是 Embedding在 Embedding和 Word2vec之间还有一个方法GloVe④ GloVe 和 Word2vec区别Word2vec是基于窗口来做的一段话有一个滑动窗口3个词滑动一次滑动窗口有一个非常大的局限性只考虑了局部状态GloVe 考虑的是全局状态2.4 文本数据分析文本数据分析的方法标签数量分布、句子长度分布、词频统计与关键词词云2.5 文本特征处理文本特征处理的方法添加 n-gram特征、文本长度规范2.6 文本数据增强文本数据增强的方法会议数据增强法3.RNN 及其变体4. Transformer5. 迁移学习

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2639376.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！