Paraformer分角色语音识别-中文-通用 FunASR demo测试与训练

news2025/6/8 22:23:46

在这里插入图片描述

文章目录

  • 0 资料
  • 1 Paraformer分角色语音识别-中文-通用
  • 1 模型下载
  • 2 音频识别测试
  • 3 FunASR安装 (训练用)
  • 4 训练

0 资料

https://github.com/modelscope/FunASR/blob/main/README_zh.md

https://github.com/modelscope/FunASR/blob/main/model_zoo/readme_zh.md

训练实时语音识别Paraformer模型

在这里插入图片描述
PyTorch / 2.3.0 / 3.12(ubuntu22.04) / 12.1

1 Paraformer分角色语音识别-中文-通用

https://www.modelscope.cn/models/iic/speech_paraformer-large-vad-punc-spk_asr_nat-zh-cn

安装ffmpeg

source /etc/network_turbo
conda install x264 ffmpeg -c conda-forge -y
# 或者
conda install -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/ x264 ffmpeg -y
source /etc/network_turbo
pip install torchaudio
pip install -U funasr

python -c "import torchaudio; print(torchaudio.__version__)"
python -c "import funasr; print(funasr.__version__)"

1 模型下载

模型下载:https://modelscope.cn/models/iic/speech_paraformer-large-vad-punc-spk_asr_nat-zh-cn/files

使用SDK下载下载:

开始前安装

source /etc/network_turbo
pip install modelscope

脚本下载

# source /etc/network_turbo
from modelscope import snapshot_download

# 指定模型的下载路径
cache_dir = '/root/autodl-tmp'
# 调用 snapshot_download 函数下载模型

model_dir = snapshot_download('iic/speech_paraformer-large-vad-punc-spk_asr_nat-zh-cn', cache_dir=cache_dir)


print(f"模型已下载到: {model_dir}")

2 音频识别测试

音频下载

wget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/vad_example.wav
from funasr import AutoModel
# paraformer-zh is a multi-functional asr model
# use vad, punc, spk or not as you need
# model = AutoModel(model="paraformer-zh", model_revision="v2.0.4",
model = AutoModel(model="/root/autodl-tmp/iic/speech_paraformer-large-vad-punc-spk_asr_nat-zh-cn", model_revision="v2.0.4",
                  vad_model="fsmn-vad", vad_model_revision="v2.0.4",
                  punc_model="ct-punc-c", punc_model_revision="v2.0.4",
                  # spk_model="cam++", spk_model_revision="v2.0.2",
                  )
# res = model.generate(input=f"{model.model_path}/example/asr_example.wav", 
res = model.generate(input=f"vad_example.wav", 
            batch_size_s=300, 
            hotword='魔搭')
print(res)

结果如下:
在这里插入图片描述

[{‘key’: ‘vad_example’, ‘text’:
‘试错的过程很简单啊,今特别是今天冒名插血卡的同学,你们可以听到后面的有专门的活动课,它会大大降低你的思错成本。其实你也可以不要来听课,为什么你自己写嘛?我先今天写五个点,我就实试实验一下,反正这五个点不行,我再写五个点,再是再不行,那再写五个点嘛。你总会所谓的活动大神和所谓的高手都是只有一个,把所有的错。所有的坑全部趟一遍,留下正确的你就是所谓的大神明白吗?所以说关于活动通过这一块,我只送给你们四个字啊,换位思考。如果说你要想降低你的试错成本,今天来这里你们就是对的。因为有创企创需要搞这个机会。所以说关于活动过于不过这个问题或者活动很难通过这个话题。呃,如果真的要坐下来聊的话,要聊一天。但是我觉得我刚才说的四个字足够好,谢谢。好,非常感谢那个三毛老师的回答啊,三毛老师说我们在整个店铺的这个活动当中,我们要学会换位思考。其实。’,
‘timestamp’: [[380, 620], [640, 740], [740, 940], [940, 1020], [1020,
1260], [1500, 1740], [1740, 1840], [1840, 2135], [2830, 3010], [3010,
3210], [3210, 3290], [3290, 3370], [3370, 3470], [3470, 3590], [3590,
3830], [3950, 4130], [4130, 4270], [4270, 4350], [4350, 4470], [4470,
4590], [4590, 4690], [4690, 4770], [4770, 5010], [5250, 5410], [5410,
5530], [5530, 5650], [5650, 5975], [6670, 6830], [6830, 6970], [6970,
7110], [7110, 7230], [7230, 7470], [7490, 7730], [8070, 8310], [8310,
8430], [8430, 8670], [8690, 8910], [8910, 9030], [9030, 9270], [9550,
9750], [9750, 9910], [9910, 10110], [10110, 10350], [10670, 10910],
[10950, 11130], [11130, 11250], [11250, 11370], [11370, 11490],
[11490, 11630], [11630, 11730], [11730, 11970], [12310, 12490],
[12490, 12610], [12610, 12710], [12710, 12790], [12790, 12910],
[12910, 13110], [13110, 13270], [13270, 13350], [13350, 13490],
[13490, 13630], [13630, 13870], [14030, 14250], [14250, 14350],
[14350, 14589], [14630, 14850], [14850, 14950], [14950, 15070],
[15070, 15250], [15250, 15490], [15950, 16150], [16150, 16390],
[16390, 16490], [16490, 16610], [16610, 16750], [16750, 16850],
[16850, 16970], [16970, 17210], [17270, 17390], [17390, 17570],
[17570, 17810], [17990, 18230], [18310, 18410], [18410, 18550],
[18550, 18650], [18650, 18870], [18870, 19010], [19010, 19090],
[19090, 19190], [19190, 19310], [19310, 19390], [19390, 19490],
[19490, 19590], [19590, 19830], [19970, 20130], [20130, 20250],
[20250, 20430], [20430, 20550], [20550, 20670], [20670, 20910],
[21090, 21270], [21270, 21510], [21510, 21650], [21650, 21750],
[21750, 21990], [22470, 22609], [22609, 22710], [22710, 22890],
[22890, 22970], [22970, 23070], [23070, 23190], [23190, 23485],
[24060, 24280], [24280, 24380], [24380, 24620], [25120, 25360],
[25500, 25660], [25660, 25985], [27030, 27230], [27230, 27410],
[27410, 27510], [27510, 27750], [27810, 27990], [27990, 28150],
[28150, 28270], [28270, 28350], [28350, 28430], [28430, 28755],
[30180, 30320], [30320, 30560], [30600, 30720], [30720, 30840],
[30840, 30940], [30940, 31235], [32020, 32260], [32280, 32440],
[32440, 32620], [32620, 32700], [32700, 32940], [33200, 33340],
[33340, 33440], [33440, 33560], [33560, 33800], [33960, 34160],
[34160, 34360], [34360, 34600], [34800, 35000], [35000, 35240],
[35540, 35700], [35700, 35900], [35900, 36000], [36000, 36180],
[36180, 36420], [36440, 36600], [36600, 36700], [36700, 36840],
[36840, 36940], [36940, 37020], [37020, 37100], [37100, 37200],
[37200, 37455], [38480, 38600], [38600, 38720], [38720, 38960],
[39180, 39320], [39320, 39440], [39440, 39560], [39560, 39740],
[39740, 39840], [39840, 40040], [40040, 40220], [40220, 40340],
[40340, 40440], [40440, 40540], [40540, 40620], [40620, 40840],
[40840, 40980], [40980, 41120], [41120, 41220], [41220, 41340],
[41340, 41460], [41460, 41620], [41620, 41800], [41800, 41920],
[41920, 42160], [42340, 42580], [42720, 42940], [42940, 43100],
[43100, 43240], [43240, 43480], [43800, 44020], [44020, 44200],
[44200, 44440], [44740, 44960], [44960, 45140], [45140, 45380],
[45440, 45680], [45680, 45860], [45860, 45980], [45980, 46080],
[46080, 46220], [46220, 46360], [46360, 46460], [46460, 46725],
[47580, 47760], [47760, 48000], [48040, 48220], [48220, 48340],
[48340, 48580], [48660, 48800], [48800, 48920], [48920, 49000],
[49000, 49080], [49080, 49260], [49260, 49495], [50180, 50300],
[50300, 50540], [50600, 50780], [50780, 50900], [50900, 51140],
[51180, 51320], [51320, 51440], [51440, 51520], [51520, 51640],
[51640, 51740], [51740, 51820], [51820, 51960], [51960, 52200],
[52400, 52560], [52560, 52640], [52640, 52740], [52740, 52860],
[52860, 52980], [52980, 53100], [53100, 53280], [53280, 53380],
[53380, 53500], [53500, 53620], [53620, 53860], [54080, 54220],
[54220, 54320], [54320, 54400], [54400, 54640], [54640, 54760],
[54760, 54880], [54880, 54980], [54980, 55100], [55100, 55220],
[55220, 55380], [55380, 55520], [55520, 55700], [55700, 55820],
[55820, 55900], [55900, 56060], [56060, 56295], [57010, 57210],
[57210, 57310], [57310, 57430], [57430, 57530], [57530, 57650],
[57650, 57890], [57950, 58130], [58130, 58230], [58230, 58330],
[58330, 58430], [58430, 58530], [58530, 58630], [58630, 58750],
[58750, 58950], [58950, 59050], [59050, 59345], [60070, 60230],
[60230, 60330], [60330, 60470], [60470, 60570], [60570, 60810],
[60970, 61170], [61170, 61290], [61290, 61410], [61410, 61490],
[61490, 61610], [61610, 61770], [61770, 61890], [61890, 62130],
[62230, 62430], [62430, 62670], [63030, 63270], [63290, 63430],
[63430, 63670], [63890, 64130], [64170, 64270], [64270, 64470],
[64470, 64570], [64570, 64750], [64750, 64870], [64870, 65050],
[65050, 65170], [65170, 65290], [65290, 65410], [65410, 65530],
[65530, 65610], [65610, 65710], [65710, 65830], [65830, 66010],
[66010, 66110], [66110, 66230], [66230, 66310], [66310, 66410],
[66410, 66550], [66550, 66650], [66650, 66890], [67110, 67350],
[67410, 67550], [67550, 67690], [67690, 67790], [67790, 67910],
[67910, 68030], [68030, 68110], [68110, 68210], [68210, 68310],
[68310, 68490], [68490, 68610], [68610, 68750], [68750, 68850],
[68850, 68930], [68930, 69030], [69030, 69150], [69150, 69290],
[69290, 69450], [69450, 69610], [69610, 69750], [69750, 69990],
[69990, 70110], [70110, 70315]]}]

3 FunASR安装 (训练用)

source /etc/network_turbo
git clone https://github.com/alibaba/FunASR.git && cd FunASR

进入到:FunASR/examples/industrial_data_pretraining/paraformer

4 训练

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2404635.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

对抗反爬机制的分布式爬虫自适应策略:基于强化学习的攻防博弈建模

在大数据时代,数据的价值不言而喻。网络爬虫作为获取数据的重要工具,被广泛应用于各个领域。然而,随着爬虫技术的普及,网站为了保护自身数据安全和服务器性能,纷纷采取了各种反爬机制。这就使得爬虫与反爬虫之间形成了…

手写muduo网络库(一):项目构建和时间戳、日志库

引言 本文作为手写 muduo 网络库系列开篇,聚焦项目基础框架搭建与核心基础工具模块设计。通过解析 CMake 工程结构设计、目录规划原则,结合时间戳与日志系统的架构,为后续网络库开发奠定工程化基础。文中附完整 CMake 配置示例及模块代码。 …

14-Oracle 23ai Vector Search 向量索引和混合索引-实操

一、Oracle 23ai支持的2种主要的向量索引类型: 1.1 内存中的邻居图向量索引 (In-Memory Neighbor Graph Vector Index) HNSW(Hierarchical Navigable Small World :分层可导航小世界)索引 是 Oracle AI Vector Search 中唯一支持的内存邻居图向量索引类…

Web前端基础:JavaScript

1.JS核心语法 1.1 JS引入方式 第一种方式&#xff1a;内部脚本&#xff0c;将JS代码定义在HTML页面中 JavaScript代码必须位于<script></script>标签之间在HTML文档中&#xff0c;可以在任意地方&#xff0c;放置任意数量的<script></script>一般会把…

基于AWS Serverless架构:零运维构建自动化SEO内容生成系统

作者&#xff1a;[Allen] 技术专栏 | 深度解析云原生SEO自动化 在流量为王的时代&#xff0c;持续产出高质量SEO内容成为技术运营的核心痛点。传统方案面临开发成本高、扩展性差、关键词响应滞后三大难题。本文将分享如何用AWS Serverless技术栈&#xff0c;构建一套零服务器运…

电镀机的阳极是什么材质?

知识星球&#xff08;星球名&#xff1a;芯片制造与封测技术社区&#xff0c;点击加入&#xff09;里的学员问&#xff1a;电镀的阳极有什么讲究&#xff1f;什么是可溶性阳极和非可溶性阳极&#xff1f; 什么是可溶性阳极与非可溶性阳极&#xff1f; 可溶性阳极 阳极本身就是…

vscode调试deepspeed的方法之一(无需调整脚本)

现在deepspeed的脚本文件是&#xff1a; # 因为使用 RTX 4000 系列显卡时&#xff0c;不支持通过 P2P 或 IB 实现更快的通信宽带&#xff0c;需要设置以下两个环境变量 # 禁用 NCCL 的 P2P 通信&#xff0c;以避免可能出现的兼容性问题 export NCCL_P2P_DISABLE"1" …

Codeforces Round 509 (Div. 2) C. Coffee Break

题目大意&#xff1a; 给你n、m、d n为元素个数,m为数列长度,d为每个元素之间的最短间隔 问最少需要多少个数列可以使得元素都能装进数列&#xff0c;并且满足每个元素之间的间隔大于等于d 核心思想 使用贪心的思想&#xff0c;将元素的大小进行排序&#xff0c;问题出在必…

榕壹云健身预约系统:多门店管理的数字化解决方案(ThinkPHP+MySQL+UniApp实现)

随着全民健身热潮的兴起&#xff0c;传统健身房在会员管理、课程预约、多门店运营等方面面临诸多挑战。针对这一需求&#xff0c;我们开发了一款基于ThinkPHPMySQLUniApp的榕壹云健身预约系统&#xff0c;为中小型健身机构及连锁品牌提供高效、灵活的数字化管理工具。本文将详细…

QUIC——UDP实现可靠性传输

首先我们要知道TCP存在什么样的痛点问题 TCP的升级很困难TCP建立连接的延迟网络迁移需要重新建立连接TCP存在队头阻塞问题 QUIC就是为了解决以上的问题而诞生了, 下面我会介绍QUIC的一些特性和原理 QUIC对比TCP优势: 握手建连更快 QUIC内部包含了TLS, 它在自己的帧会携带TL…

快速上手shell脚本运行流程控制

一、条件运行流程控制 1.if单分支结构 #!/bin/bash if [ 条件 ] then动作1动作2... fi 2.if双分支结构 ​ #!/bin/bash if [ 条件 ] then动作1动作2... else动作1动作2... fi​ 3.if多分支结构 二、循环运行流程控制 1.无判定for循环 给网卡一键添加5个IP 2.判断循环 while…

10.Linux进程信号

1. 理解信号 信号VS信号量 老婆&#xff1a;老婆饼-》没有任何关系&#xff01;信号&#xff1a;闹钟&#xff0c;上课铃声&#xff0c;脸色...人-》进程&#xff1b;信号中断人正在做的事&#xff0c;是一种事件的异步通知机制&#xff1b; 我们自习一会&#xff0c;等张三回…

机器学习基础(四) 决策树

决策树简介 决策树结构&#xff1a; 决策树是一种树形结构&#xff0c;树中每个内部节点表示一个特征上的判断&#xff0c;每个分支代表一个判断结果的输出&#xff0c;每个叶子节点代表一种分类结果 决策树构建过程&#xff08;三要素&#xff09;&#xff1a; 特征选择 选…

CentOS 7如何编译安装升级gcc至7.5版本?

CentOS 7如何编译安装升级gcc版本? 由于配置CentOS-SCLo-scl.repo与CentOS-SCLo-scl-rh.repo后执行yum install -y devtoolset-7安装总是异常&#xff0c;遂决定编译安装gcc7.5 # 备份之前的yum .repo文件至 /tmp/repo_bak 目录 mkdir -p /tmp/repo_bak && cd /etc…

为什么React列表项需要key?(React key)(稳定的唯一标识key有助于React虚拟DOM优化重绘大型列表)

文章目录 1. **帮助 React 识别列表项的变化**2. **性能优化**3. **避免组件状态混乱**4. **为什么使用 rpid 作为 key**5. **不好的做法示例**6. **✅ 正确的做法** 在 React 中添加 key{item.rpid} 是非常重要的&#xff0c;主要有以下几个原因&#xff1a; 1. 帮助 React 识…

飞牛云一键设置动态域名+ipv6内网直通访问内网的ssh服务-家庭云计算专家

IPv6访问SSH的难点与优势并存。难点主要体现在网络环境支持不足&#xff1a;部分ISP未完全适配IPv6协议&#xff0c;导致客户端无法直接连通&#xff1b;老旧设备或工具&#xff08;如Docker、GitHub&#xff09;需额外配置才能兼容IPv6&#xff0c;技术门槛较高&#xff1b;若…

Java高级 | 【实验七】Springboot 过滤器和拦截器

隶属文章&#xff1a;Java高级 | &#xff08;二十二&#xff09;Java常用类库-CSDN博客 系列文章&#xff1a;Java高级 | 【实验一】Springboot安装及测试 |最新-CSDN博客 Java高级 | 【实验二】Springboot 控制器类相关注解知识-CSDN博客 Java高级 | 【实验三】Springboot 静…

深入理解 Spring IOC:从概念到实践

目录 一、引言 二、什么是 IOC&#xff1f; 2.1 控制反转的本质 2.2 类比理解 三、Spring IOC 的核心组件 3.1 IOC 容器的分类 3.2 Bean 的生命周期 四、依赖注入&#xff08;DI&#xff09;的三种方式 4.1 构造器注入 4.2 Setter 方法注入 4.3 注解注入&#xff08;…

行为设计模式之Command (命令)

行为设计模式之Command &#xff08;命令&#xff09; 前言&#xff1a; 需要发出请求的对象&#xff08;调用者&#xff09;和接收并执行请求的对象&#xff08;执行者&#xff09;之间没有直接依赖关系时。比如遥控器 每个按钮绑定一个command对象&#xff0c;这个Command对…

NeRF 技术深度解析:原理、局限与前沿应用探索(AI+3D 产品经理笔记 S2E04)

引言&#xff1a;光影的魔法师——神经辐射场概览 在前三篇笔记中&#xff0c;我们逐步揭开了 AI 生成 3D 技术的面纱&#xff1a;从宏观的驱动力与价值&#xff08;S2E01&#xff09;&#xff0c;到主流技术流派的辨析&#xff08;S2E02&#xff09;&#xff0c;再到实用工具的…