5.28 孔老师 nlp讲座

news2025/6/1 4:02:12

本次讲座主要介绍了语言模型的起源、预训练模型以及大语言模型(需要闫老师后讲)等内容。首先,语言模型的起源可以追溯到语音识别中的统计语言模型,通过估计声学参数串产生文字串的概率来找到最大概率的文字串。然后,介绍了语言模型的基本概念,即给定一个文字串S,用P(w1, w2, …, WN)表示其概率。最后,提到了预训练模型在大语言模型中的应用,以及如何在语料库中解决条件概率稀疏的问题。

1 语言模型与条件概率估计方法

主要讨论了如何估计条件概率,通过语言模型来反映句子出现的可能性。语言模型通常用于估计给定上文条件下,下一个词出现的概率。 通过最大似然估计方法,利用语料库中的数据来计算概率。但在实际应用中,可能会遇到分子概率为零的情况,此时需要采用平滑方法进行处理。此外,随着语料库的扩大,可能会出现一些新词或罕见词汇,导致分子和分母的数目减少,影响概率估计的准确性。

2 N元语言模型及其应用

为了解决语言模型中的问题,可以通过平滑策略和假设任意单词的出现只与过去出现的 N-1 个词相关,从而得到 N 元语言模型。N 元语言模型的概率估计会简化为只考虑当前词前面出现的 N-1 个词。例如,一元语言模型中每个词的出现与它前面零个词相关,二元语言模型中每个词的出现只与它前面一个词出现相关,以此类推。在垃圾邮件过滤中,可以使用字符级别的语言模型,通过联合一元、二元、三元、四元、五元等特征,使用逻辑回归模型进行邮件分类。

3 解决语言模型零概率问题的方法

讨论了语言模型中的零概率问题,提出了数据平滑技术来解决这个问题。以二元语言模型为例,通过拉普拉斯法则和加法平滑方法,可以合理估计出句子出现的概率,避免了零概率问题。然后讨论了传统语言模型的缺点,指出传统语言模型在信息检索和纠错等领域仍然有广泛应用,但可能存在一些问题。

4 平滑技术及其在语言模型中的应用

为解决零概率问题,引入了平滑技术,但这种方法设计规则复杂且可能出现规则冲突。传统语言模型的缺点在于维度灾难和数据稀疏性,难以处理上下文泛化问题。提出了一种基于人工设计规则的方法,通过将句子展开成由各个词组成的联合概率,用条件概率展开。同时,尝试将词W出现的概率建模成一个函数,通过输入词W的上下文来估计词W出现的概率。

5 神经网络在语言模型中的应用

讨论了如何使用神经网络建模语言模型,特别是前向神经语言模型。首先,研究者们将概率估计转化为建模问题。2003年,Bingo等人提出了神经概率语言模型,引入了词向量的概念,用低维或固定位数的实数向量表示单词,代替了高维离散变量。这种表示方法降低了模型的复杂性,提高了学习效率。

6 前向神经网络在语言模型中的应用与改进

讲述了前向神经网络在语言模型估计中的应用,以及循环神经网络在解决语言模型问题时的优势。前向神经网络通过将词嵌入到固定空间向量中,然后通过多层神经网络进行学习,但存在输入长度固定、无法处理变长上下文信息等问题。为解决这些问题,2010年研究者提出了循环神经网络,通过考虑多个时间步上的信息来建模语言模型,使得输入长度不受限制。

7 自然语言处理中的预训练模型与语言模型

介绍了学习词向量的方法,如CBOW和skip gram,并提到了基于循环神经网络的语言模型。同时,提到了计算机视觉领域的研究受到自然语言处理的启发,以及预训练微调在图像处理中的应用。此外,还介绍了基于transformer的大规模预训练语言模型,如GPT、BERT等,以及动态词向量算法。最后,提到了后续将针对各种任务进行讲座。

8 大模型学习与实验进展的规划建议

主要讲述了BERT模型的发展历程,以及预训练模型在自然语言处理领域的应用。闫老师建议同学们在开学前了解这些基本概念,以便更好地跟进项目组的研究工作,帮助师兄完成实验,加快论文发表。闫老师还鼓励同学们在研究生阶段多提问,多交流,提高自己的学术水平。同时,闫老师会在技术方面带领大家解决问题,无论是谁名下的学生有问题,都可以向导师请教。

9 NLP在深信领域及代码检测应用分享

在这段内容中,提到了NLP在深信领域和代码检测应用上的一些想法和经验分享。接下来的时间里,会尽量在下周或下下周为大家分享相关内容。希望大家在这段时间积累关于NLP的基础知识,以便更好地投入到实验中。

会议待办

1.闫凯需要重新安排时间给大家讲解,因为他的电脑出了问题
2.在入学前掌握预训练模型的基本概念,以便更好地跟进项目组的研究工作并完成实验

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2392080.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于微信小程序的漫展系统的设计与实现

博主介绍:java高级开发,从事互联网行业六年,熟悉各种主流语言,精通java、python、php、爬虫、web开发,已经做了六年的毕业设计程序开发,开发过上千套毕业设计程序,没有什么华丽的语言&#xff0…

基于Web的分布式图集管理系统架构设计与实践

引言:为什么需要分布式图集管理? 在现代Web图形应用中,纹理图集(Texture Atlas)技术是优化渲染性能的关键手段。传统的图集制作流程通常需要美术人员使用专业工具(如TexturePacker)离线制作&am…

mysql执行sql语句报错事务锁住

报错情况 1205 - Lock wait timeout exceeded; try restarting transaction先找出长时间运行的事务 SELECT * FROM information_schema.INNODB_TRX ORDER BY trx_started ASC;终止长时间运行的事务 KILL [PROCESS_ID];

Java消息队列应用:Kafka、RabbitMQ选择与优化

Java消息队列应用:Kafka、RabbitMQ选择与优化 在Java应用领域,消息队列是实现异步通信、应用解耦、流量削峰等重要功能的关键组件。Kafka和RabbitMQ作为两种主流的消息队列技术,各有特点和适用场景。本文将深入探讨Kafka和RabbitMQ在Java中的…

零基础设计模式——结构型模式 - 组合模式

第三部分:结构型模式 - 组合模式 (Composite Pattern) 在学习了桥接模式如何分离抽象和实现以应对多维度变化后,我们来探讨组合模式。组合模式允许你将对象组合成树形结构来表现“整体-部分”的层次结构。组合模式使得用户对单个对象和组合对象的使用具…

腾讯云国际站可靠性测试

在数字化转型加速的今天,企业对于云服务的依赖已从“可选”变为“必需”。无论是跨境电商的实时交易,还是跨国企业的数据协同,云服务的可靠性直接决定了业务连续性。作为中国领先的云服务提供商,腾讯云国际站(Tencent …

自定义异常小练习

在开始之前,让我们高喊我们的口号: ​​​​​​​ 键盘敲烂,年薪百万! 目录 键盘敲烂,年薪百万! 异常综合练习: 自定义异常 异常综合练习: 自定义异常: 定义异常类写继承关系空参构造带参构造 自定…

SpringBoot整合MinIO实现文件上传

使用Spring Boot与JSP和MinIO(一个开源对象存储系统,兼容Amazon S3)进行集成,您可以创建一个Web应用来上传、存储和管理文件。以下是如何将Spring Boot、JSP和MinIO集成的基本步骤: 这个是minio正确启动界面 这个是min…

基于面向对象设计的C++日期推算引擎:精准高效的时间运算实现与运算重载工程化实践

前引: 在软件开发中,时间与日期的处理是基础但极具挑战性的任务。传统的手工日期运算逻辑往往面临闰年规则、月份天数动态变化、时区转换等复杂场景的容错难题,且代码冗余度高、可维护性差。本文将深入探讨如何利用C的面向对象特性与成员函数…

如何把 Microsoft Word 中所有的汉字字体替换为宋体?

Ctrl H ,然后,点击更多,勾选使用通配符,查找内容中填入 [一-龥]{1,}, 这是 Word 通配符匹配汉字的经典写法(匹配 Unicode 范围内的 CJK 汉字)。 然后, “替换为”留空,点…

02. [Python+Golang+PHP]三数之和,多种语言实现最优解demo

一、问题描述:三数之和 给你一个整数数组 nums ,判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k ,同时还满足 nums[i] nums[j] nums[k] 0 。请你返回所有和为 0 且不重复的三元组。 注意:答案中…

倚光科技在二元衍射面加工技术上的革新:引领光学元件制造新方向​

倚光科技二元衍射面加工技术(呈现出细腻的光碟反射纹路) 在光学元件制造领域,二元衍射面的加工技术一直是行业发展的关键驱动力之一。其精准的光相位调制能力,在诸多前沿光学应用中扮演着不可或缺的角色。然而,长期以来…

驱动开发(2)|鲁班猫rk3568简单GPIO波形操控

上篇文章写了如何下载内核源码、编译源码的详细步骤,以及一个简单的官方demo编译,今天分享一下如何根据板子的引脚写自己控制GPIO进行高低电平反转。 想要控制GPIO之前要学会看自己的引脚分布图,我用的是鲁班猫RK3568,引脚分布图如…

《软件工程》第 3 章 -需求工程概论

在软件工程的开发流程中,需求工程是奠定项目成功基础的关键环节。它专注于获取、分析、定义和管理软件需求,确保开发出的软件能真正满足用户需求。接下来,我们将按照目录内容,结合 Java 代码和实际案例,深入讲解需求工…

VMware-MySQL主从

MySQL主从 服务器信息 服务器类型角色主机地址主机名称虚拟机master192.168.40.128test-1虚拟机slave192.168.40.129test-2 Master 配置(192.168.40.128) 删除自动生成的配置 /var/lib/mysql/auto.cnf [roottest-1 ~]# rm -rf /var/lib/mysql/auto.…

2023-ICLR-ReAct 首次结合Thought和Action提升大模型解决问题的能力

关于普林斯顿大学和Google Research, Brain Team合作的一篇文章, 在语言模型中协同Reasoning推理和Action行动。 论文地址:https://arxiv.org/abs/2210.03629 代码:https://github.com/ysymyth/ReAct.git 其他复现 langchain :https://pytho…

Rust 开发的一些GUI库

最近考虑用Rust干点什么,于是搜集了下资料——根据2025年最新调研结果和社区实践,Rust GUI库生态已形成多个成熟度不同的解决方案。以下是当前主流的GUI库分类及特点分析,结合跨平台支持、开发体验和实际应用场景进行综合评估: 一…

【第四十六周】文献阅读:从 RAG 到记忆:大型语言模型的非参数持续学习

目录 摘要Abstract从 RAG 到记忆:大型语言模型的非参数持续学习研究背景方法论1. 离线索引(Offline Indexing)2. 在线检索(Online Retrieval)具体细节 创新性实验结果局限性总结 摘要 本论文旨在解决当前检索增强生成…

从智能提效到产品赋能的架构实践

摘要 本文深入探讨了企业级系统从智能化提效阶段向产品赋能阶段演进的架构实践路径。通过分析传统架构的局限性,提出了以用户价值为导向的现代化架构设计理念,并结合实际案例展示了如何构建可扩展、高可用、智能化的产品架构体系。 1. 引言 在数字化转型的浪潮中,企业技术…

关于OT IIOT系统远程访问的零信任安全

什么是OT & IIOT?—— 工业领域的“操作基石”与“智能升级” 在工业数字化转型的浪潮中,OT(运营技术)与IIoT(工业物联网)是两个核心概念。前者是工业生产的“神经中枢”,后者是驱动智能升…