Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记3

news2026/5/20 10:20:07

在这里插入图片描述

Listen

Encoder目标：
去掉noises，提取出相关信息
在这里插入图片描述
encoder有很多做法：

CNN见文章：CNN-卷积神经网络

在这里插入图片描述

self-attention见文章self-attention

Pyramid RNN将两个结合，然后送到下一层。Pooling over time则是两个中取一个送到下一层。

在这里插入图片描述

Attention

match这个function可以自己定义，常用的是dot-product attention，作用是计算h1和z0的相似度。
在这里插入图片描述
还有一种additive attention

c0（在文献上常常被成为Context Vector)会被当做decoder即RNN input

distribution（是通过softmax的)会给每一个token一个概率值

Spell

假设输入的一段声音讯号是cat，则model先后的需要输出c——a——t
先输出c
在这里插入图片描述
输出c后，用z1再次计算新的阿尔法的值

注意：a是由上一层的c和z2共同得到

EOS 代表辨识结束

Beam Search

red path：每一次都选择概率最大的路径
在这里插入图片描述
Greedy Decoding不见得能找到几率最大的那个

解决上述问题的方法：Beam Search，每次都保留B个最好的路径。Beam size的大小需要自己去考量的。

Training

输入是cat，我们希望Cross entropy越小越好，换言之p©越大越好
在这里插入图片描述

Why Teacher Forcing？

如果前面的输出是错误的
在这里插入图片描述
经过一连串的training后，Model变厉害了，得到了正确的输出

不管前面输出什么只专注训练c——>a这件事
在这里插入图片描述

Back to Attention

在这里插入图片描述

在语音识别上我们希望阿尔法是由左向右

而不是阿尔法乱跳

所以第一篇用LAS做语音辨识的作者加了一个机制：
Location-aware attention

在这里插入图片描述

Limitation of LAS

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/43312.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

代谢组学文献分享:地中海饮食、血浆代谢组和心血管疾病风险

代谢组学文献分享:地中海饮食、血浆代谢组和心血管疾病风险

全球三分之一的死亡由心血管疾病造成，2015-2020年美国膳食指南建议，地中海饮食是预防心血管疾病的一项重要且具有成本效益的战略措施。代谢组学文献分享，发表在期刊European Heart Journ-al（IF 22.637）上题目为“Th…

阅读更多...

网络协议

网络协议

网络通信协议：计算机网络中实现通信必须有一些约定，即通信协议，对速率、传输代码、代码结构、传输控制步骤、出错控制等制定标准。问题：网络协议太复杂：计算机网络通信涉及内容很多，比如指定源地址和目标…

阅读更多...

【多标签, 极限的多标签算法】评价指标梳理

【多标签, 极限的多标签算法】评价指标梳理

具体研究多标签和极限多标签 (XML) 的时候, 合理使用评价指标是关键. 最近在研究极限多标签算法的时候发现了它和传统多标签算法的评价指标是有异的, 而且我曾经积累的传统多标签评价指标也没有一个系统的体系 (很混乱). 于是写下本文用于自我总结. 查询目录<想看什么直接通…

阅读更多...

语音识别翻译怎么做？这些方法值得收藏

语音识别翻译怎么做？这些方法值得收藏

随着网络的不断发展，我们可以通过网络与世界各地的网友进行聊天。小伙伴们平时会和外国人交流吗？如果是文字聊天，我们看不懂的时候，还可以直接复制文字进行翻译。那如果外国网友发了段语音，结果我们大部分内容听不懂的…

阅读更多...

电力行业人员定位管理解决方案之智能巡检

电力行业人员定位管理解决方案之智能巡检

智能巡检引入大数据分析理念，通过数字化技术实现对生产现场各关键要素的全面感知和实时互联，形成项目现场“数据一个库、监管一张网、管理一条线“。在信息技术高速发展的今天，传统人工巡视、手工纸介质记录的工作方式已经无法满足电力设备巡…

阅读更多...

第7章博客文章的前端渲染显示

第7章博客文章的前端渲染显示

说实话本人通过Vue页面实现前端对后端数据的渲染显示也是初学咋练，但后端实现本人却是老鸟，对于后端开发者来说如果，渲染显示的软件是浏览器，除非团队中有Vue方面的大拿，不管是PC浏览器还是移动PC浏览器，Ra…

阅读更多...

元宇宙初体验

元宇宙初体验

14天学习训练营导师课程： 张子良《元宇宙体系结构、关键技术和实践探索》前言最近这段时间加入勤学会的学习中，我加入的是元宇宙相关的学习组，为什么我选择元宇宙，不仅因为元宇宙是应用场景和生活方式的未来，而且元…

阅读更多...

$启动 idea 弹出“Failed to load JVM DLL\bin\server\jvm.dll”错误的解决方法$

启动 idea 弹出“Failed to load JVM DLL\bin\server\jvm.dll”错误的解决方法

打开idea报failed to load JVM DLL 原因1： 查看是否缺少Microsoft Visual C 2010 Redistributable Package x64，没有则安装。地址： 32 bit: http://www.microsoft.com/download/en/details.aspx?id5555 64 bit: http://www.microsoft.com…

阅读更多...

面试必问创建10个a点击弹出下标

面试必问创建10个a点击弹出下标

<script> // for (let i 1; i <11; i) { // var adocument.createElement("a"); // a.href"#"; // a.innerHTML"<br />a标签"i // document.body…

阅读更多...

JDBC获取数据库连接

JDBC获取数据库连接

Driver接口实现类 Driver接口介绍 java.sql.Driver 接口是所有 JDBC 驱动程序需要实现的接口。这个接口是提供给数据库厂商使用的，不同数据库厂商提供不同的实现。在程序中不需要直接去访问实现了 Driver 接口的类，而是由驱动程序管理器类(java.sql.…

阅读更多...

Android学习---zygote(上)

Android学习---zygote(上)

Zygote意思是受精卵，它在Java世界中起到了很重要的作用，Android是基于Linux内核的，SDK是基于Java世界的，native语言是基于C和C，起初一定是先存在native世界，那么Java世界是如何创建的？这就与zyg…

阅读更多...

『LeetCode|每日一题』----＞打家劫舍||

『LeetCode|每日一题』----＞打家劫舍||

目录 1.每日一句 2.作者简介『LeetCode|每日一题』打家劫舍|| 1.每日一题 2.解题思路 2.1 思路分析 2.2 核心代码 2.3 完整代码 2.4 运行结果 1.每日一句任何事情把期待值降到最低，所有遇见的都是礼物 2.作者简介 🏡个人主页：XiaoXia…

阅读更多...

github数据怎么Python爬取

github数据怎么Python爬取

爬虫流程在上周写完用scrapy爬去知乎用户信息的爬虫之后，github上star个数一下就在公司小组内部排的上名次了，我还信誓旦旦的跟上级吹牛皮说如果再写一个，都不好意思和你再提star了，怕你们伤心。上级不屑的说，那就写…

阅读更多...

网站页面SEO优化方案

网站页面SEO优化方案

如果可以实现记得点赞分享，谢谢老铁～ 背景说明针对网页面而提供相应的产品页面 SEO 优化部署方案，使其产品页面符合 SEO 规范，且能尽快获得产品词的较好排名。产品相关页面URL命名 URL 结构对于网站页面的 seo 来说非常重要…

阅读更多...

VirtualLab教程特辑

VirtualLab教程特辑

目录前言一、一些界面上的说明1、关于软边relative edge width2、catalog里器件参数改动3、系统光线分析仪的光线数4、编程手册从哪看以及哪里可以编程5、Multiple Light Source6、多波长与多模式分开显示7、harmonic fields set-manipulations8、detector results显示功率小9、…

阅读更多...

阿尔茨海默病中的人类连接组及它与生物标记物和遗传学的关系

阿尔茨海默病中的人类连接组及它与生物标记物和遗传学的关系

摘要阿尔茨海默病(AD)损害了大脑的结构和功能网络，导致认知障碍。最近的连接组学研究结果已经将AD中结构和功能网络组织的变化与淀粉样蛋白-β和tau蛋白的积累和扩散模式联系起来，为该疾病的神经生物学机制提供了见解。此外，对基因相关的连接…

阅读更多...

如何检索专利技术？

如何检索专利技术？

问题一：申请实用新型专利需要提交哪些文件呢？ 主要有以下四点： 1、请求书：主要包括实用新型专利的名称、申请人的名称和地址等内容； 2、权利要求书：这里需要交代好每一项要保护的内容； 3、说…

阅读更多...

CommonsCollections6利用链分析

CommonsCollections6利用链分析

目录 (一）利用链 （二）代码分析 0x01 TiedMapEntry 0x02 HashMap （三）POC： (一）利用链先来看 ysoserial 中的利用链： /*Gadget chain:java.io.ObjectInputStream.readObject()…

阅读更多...

[附源码]SSM计算机毕业设计线上图书销售管理系统JAVA

[附源码]SSM计算机毕业设计线上图书销售管理系统JAVA

项目运行环境配置： Jdk1.8 Tomcat7.0 Mysql HBuilderX（Webstorm也行） Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持）。项目技术： SSM mybatis Maven Vue 等等组成，B/S模式 M…

阅读更多...

三大O(nlogn)算法分析

三大O(nlogn)算法分析

堆排序 demo 从第一个父节点开始，每一个都调换自己和所有子孙节点的上下层次调换，形成最大堆。然后进行堆分支调整 class Solution {public int[] sortArray(int[] nums) {maxHeap(nums);sort(nums);return nums;}public static void maxHeap(int[] n…

阅读更多...

推荐文章

最新文章