Node.js调用Qwen3-TTS-12Hz-1.7B-VoiceDesign:实时语音聊天机器人开发

news2026/3/22 5:21:49
Node.js调用Qwen3-TTS-12Hz-1.7B-VoiceDesign实时语音聊天机器人开发1. 引言想不想让你的聊天机器人不仅能打字回复还能用各种声音跟你对话比如让AI用温柔的女声说你好呀或者用搞怪的卡通音调讲个笑话今天我就带你用Node.js和Qwen3-TTS模型从零开始搭建一个会说话的智能聊天机器人。这个教程特别适合前端开发者和Node.js爱好者不需要深厚的AI背景只要会写JavaScript就能跟着做。我们会用到最新的Qwen3-TTS语音合成技术让你的机器人不仅能说话还能根据你的指令变换不同的声音风格——甜美萝莉、沉稳大叔、甚至外星人音效都没问题学完这篇教程你将掌握WebSocket实时通信、语音流处理、多轮对话保持等实用技能这些都是开发现代AI应用的必备能力。准备好了吗让我们开始吧2. 环境准备与快速部署2.1 系统要求与依赖安装首先确保你的开发环境满足以下要求Node.js 18.0 或更高版本Python 3.8用于语音模型推理至少8GB内存推荐16GB支持CUDA的GPU可选但能大幅提升速度创建项目目录并初始化mkdir voice-chatbot cd voice-chatbot npm init -y安装核心依赖# Node.js 相关依赖 npm install express socket.io axios multer npm install --save-dev nodemon # Python 环境依赖推荐使用conda conda create -n qwen-tts python3.10 conda activate qwen-tts pip install torch torchaudio transformers soundfile pip install qwen3-tts2.2 项目结构设计建议的项目结构如下voice-chatbot/ ├── server/ # Node.js后端 │ ├── app.js # Express服务器 │ ├── socket.js # WebSocket处理 │ └── tts-service/ # Python语音服务 ├── public/ # 前端静态文件 │ ├── index.html │ ├── style.css │ └── script.js └── package.json3. 核心功能实现3.1 WebSocket实时通信搭建我们先建立一个双向通信通道让浏览器和服务器能实时交换消息// server/socket.js const socketIO require(socket.io); function setupSocket(server) { const io socketIO(server, { cors: { origin: *, methods: [GET, POST] } }); // 存储用户对话上下文 const userContexts new Map(); io.on(connection, (socket) { console.log(用户连接:, socket.id); // 初始化用户上下文 userContexts.set(socket.id, { messages: [], voiceStyle: 友好自然的助手声音 }); // 处理文本消息 socket.on(text-message, async (data) { try { const { text } data; const context userContexts.get(socket.id); // 保存用户消息到上下文 context.messages.push({ role: user, content: text }); // 调用AI生成回复这里简化处理 const aiResponse await generateAIResponse(context.messages); // 保存AI回复到上下文 context.messages.push({ role: assistant, content: aiResponse }); // 生成语音 const audioData await generateSpeech(aiResponse, context.voiceStyle); // 发送回复给客户端 socket.emit(voice-response, { text: aiResponse, audio: audioData }); } catch (error) { console.error(处理消息错误:, error); socket.emit(error, { message: 处理消息时出错 }); } }); // 处理语音风格设置 socket.on(set-voice-style, (style) { const context userContexts.get(socket.id); if (context) { context.voiceStyle style; socket.emit(voice-style-updated, { style }); } }); socket.on(disconnect, () { console.log(用户断开连接:, socket.id); userContexts.delete(socket.id); }); }); return io; } // 简化的AI回复生成 async function generateAIResponse(messages) { // 这里可以接入任何AI聊天模型 // 简化示例固定回复 const responses [ 你好我是你的语音助手很高兴为你服务。, 这个问题很有意思让我想想怎么回答..., 我已经记录下你的需求会尽快处理。, 今天的天气真不错适合出去走走呢 ]; return responses[Math.floor(Math.random() * responses.length)]; } module.exports { setupSocket };3.2 Qwen3-TTS语音生成服务现在实现Python语音服务这是整个项目的核心# server/tts-service/tts_handler.py import torch import soundfile as sf import base64 import io from qwen_tts import Qwen3TTSModel class TTSService: def __init__(self): self.model None self.is_loaded False def load_model(self): 加载语音模型 if not self.is_loaded: try: print(正在加载Qwen3-TTS模型...) self.model Qwen3TTSModel.from_pretrained( Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign, device_mapauto, torch_dtypetorch.float16 ) self.is_loaded True print(模型加载完成!) except Exception as e: print(f模型加载失败: {e}) raise def generate_speech(self, text, voice_style): 生成语音并返回base64编码的音频数据 if not self.is_loaded: self.load_model() try: # 生成语音 wavs, sample_rate self.model.generate_voice_design( texttext, languageChinese, instructvoice_style ) # 将音频数据保存到内存缓冲区 buffer io.BytesIO() sf.write(buffer, wavs[0], sample_rate, formatWAV) buffer.seek(0) # 转换为base64 audio_base64 base64.b64encode(buffer.read()).decode(utf-8) return audio_base64 except Exception as e: print(f语音生成错误: {e}) return None # 创建全局服务实例 tts_service TTSService()创建Flask接口供Node.js调用# server/tts-service/app.py from flask import Flask, request, jsonify from flask_cors import CORS from tts_handler import tts_service app Flask(__name__) CORS(app) app.route(/generate-speech, methods[POST]) def generate_speech(): try: data request.json text data.get(text, ) voice_style data.get(voice_style, 友好自然的助手声音) if not text: return jsonify({error: 缺少文本参数}), 400 audio_data tts_service.generate_speech(text, voice_style) if audio_data: return jsonify({ audio: audio_data, format: audio/wav }) else: return jsonify({error: 语音生成失败}), 500 except Exception as e: return jsonify({error: str(e)}), 500 if __name__ __main__: tts_service.load_model() # 预加载模型 app.run(port5000, debugTrue)3.3 Node.js与Python服务集成在Node.js中调用Python语音服务// server/tts-service/node-integration.js const axios require(axios); class TTSService { constructor() { this.baseURL http://localhost:5000; } async generateSpeech(text, voiceStyle 友好自然的助手声音) { try { const response await axios.post(${this.baseURL}/generate-speech, { text, voice_style: voiceStyle }); return response.data.audio; } catch (error) { console.error(调用TTS服务失败:, error.message); throw new Error(语音生成服务暂时不可用); } } // 语音风格预设库 getVoicePresets() { return { friendly: 温暖友好的助手声音语速适中带有微笑的语气, professional: 专业沉稳的商务声音清晰准确语速平稳, energetic: 充满活力的年轻声音语速稍快热情洋溢, calm: 平静舒缓的治疗师声音语速缓慢让人放松, storybook: 讲故事的老爷爷声音语速有起伏富有表现力 }; } } module.exports TTSService;4. 前端界面与交互实现创建一个简单但功能完整的前端界面!-- public/index.html -- !DOCTYPE html html head title语音聊天机器人/title link relstylesheet hrefstyle.css /head body div classcontainer h1 智能语音助手/h1 div classvoice-controls label选择语音风格:/label select idvoiceStyle option valuefriendly友好助手/option option valueprofessional专业商务/option option valueenergetic活力青年/option option valuecalm平静舒缓/option option valuestorybook讲故事模式/option /select button idtestVoice测试语音/button /div div classchat-container div idmessageList classmessage-list/div div classinput-area input typetext idmessageInput placeholder输入你的消息... button idsendButton发送/button button idvoiceButton/button /div /div audio idaudioPlayer hidden/audio /div script src/socket.io/socket.io.js/script script srcscript.js/script /body /html添加样式美化界面/* public/style.css */ body { font-family: Arial, sans-serif; background: linear-gradient(135deg, #667eea 0%, #764ba2 100%); height: 100vh; margin: 0; display: flex; justify-content: center; align-items: center; } .container { background: white; border-radius: 15px; padding: 20px; width: 400px; box-shadow: 0 10px 30px rgba(0,0,0,0.2); } .voice-controls { margin-bottom: 20px; display: flex; gap: 10px; align-items: center; } .chat-container { border: 1px solid #ddd; border-radius: 10px; overflow: hidden; } .message-list { height: 300px; overflow-y: auto; padding: 15px; background: #f9f9f9; } .message { margin: 10px 0; padding: 10px; border-radius: 10px; max-width: 80%; } .message.user { background: #007bff; color: white; margin-left: auto; } .message.assistant { background: #e9ecef; color: #333; } .input-area { display: flex; padding: 10px; background: white; border-top: 1px solid #ddd; } input, button, select { padding: 10px; border: 1px solid #ddd; border-radius: 5px; } input { flex: 1; margin-right: 10px; } button { background: #007bff; color: white; cursor: pointer; border: none; } button:hover { background: #0056b3; }实现前端交互逻辑// public/script.js document.addEventListener(DOMContentLoaded, function() { const socket io(); const messageInput document.getElementById(messageInput); const sendButton document.getElementById(sendButton); const voiceButton document.getElementById(voiceButton); const messageList document.getElementById(messageList); const voiceStyleSelect document.getElementById(voiceStyle); const testVoiceButton document.getElementById(testVoice); const audioPlayer document.getElementById(audioPlayer); const voicePresets { friendly: 温暖友好的助手声音语速适中带有微笑的语气, professional: 专业沉稳的商务声音清晰准确语速平稳, energetic: 充满活力的年轻声音语速稍快热情洋溢, calm: 平静舒缓的治疗师声音语速缓慢让人放松, storybook: 讲故事的老爷爷声音语速有起伏富有表现力 }; // 发送文本消息 function sendMessage() { const text messageInput.value.trim(); if (text) { addMessage(user, text); socket.emit(text-message, { text }); messageInput.value ; } } // 添加消息到聊天界面 function addMessage(role, text) { const messageDiv document.createElement(div); messageDiv.className message ${role}; messageDiv.textContent text; messageList.appendChild(messageList); messageList.scrollTop messageList.scrollHeight; } // 播放语音 function playAudio(audioData) { audioPlayer.src data:audio/wav;base64,${audioData}; audioPlayer.play(); } // 事件监听 sendButton.addEventListener(click, sendMessage); messageInput.addEventListener(keypress, (e) { if (e.key Enter) sendMessage(); }); voiceButton.addEventListener(click, () { // 这里可以添加语音识别功能 alert(语音输入功能需要浏览器麦克风权限); }); testVoiceButton.addEventListener(click, () { const styleKey voiceStyleSelect.value; socket.emit(set-voice-style, voicePresets[styleKey]); // 发送测试消息 socket.emit(text-message, { text: 你好这是当前语音风格的测试 }); }); // Socket事件监听 socket.on(voice-response, (data) { addMessage(assistant, data.text); playAudio(data.audio); }); socket.on(voice-style-updated, (data) { alert(语音风格已更新); }); socket.on(error, (data) { alert(错误: ${data.message}); }); });5. 完整服务器集成最后将所有的组件集成到主服务器文件中// server/app.js const express require(express); const http require(http); const path require(path); const { setupSocket } require(./socket); const TTSService require(./tts-service/node-integration); const app express(); const server http.createServer(app); const io setupSocket(server); const ttsService new TTSService(); // 提供静态文件 app.use(express.static(path.join(__dirname, ../public))); // API路由 app.use(express.json()); app.post(/api/generate-speech, async (req, res) { try { const { text, voiceStyle } req.body; const audioData await ttsService.generateSpeech(text, voiceStyle); res.json({ audio: audioData }); } catch (error) { res.status(500).json({ error: error.message }); } }); app.get(/api/voice-presets, (req, res) { res.json(ttsService.getVoicePresets()); }); const PORT process.env.PORT || 3000; server.listen(PORT, () { console.log(服务器运行在 http://localhost:${PORT}); console.log(请确保Python TTS服务也在运行: http://localhost:5000); }); // 导出用于测试 module.exports { app, server, io };6. 运行与测试6.1 启动服务首先启动Python TTS服务cd server/tts-service python app.py然后启动Node.js服务器npm run dev访问 http://localhost:3000 即可开始使用你的语音聊天机器人6.2 测试不同语音风格尝试发送以下消息并切换不同的语音风格来体验效果你好介绍一下你自己讲一个简短的笑话用不同的情绪说今天天气真好7. 总结通过这个教程我们成功构建了一个功能完整的实时语音聊天机器人。关键实现点包括WebSocket双向通信、Qwen3-TTS语音合成、多轮对话上下文维护以及前后端的协同工作。实际使用中语音生成质量相当不错特别是能够通过自然语言描述来控制声音风格这为创建多样化的人机交互体验提供了很大空间。延迟方面在本地网络环境下基本可以做到实时响应用户体验流畅。你可以在这个基础上继续扩展很多功能比如添加语音识别输入、支持更多语言、实现情感分析来自动选择语音风格或者集成更强大的AI聊天模型。最重要的是这个项目展示了如何将先进的AI语音技术与熟悉的Web开发栈相结合创造出真正有吸引力的交互体验。希望这个教程能为你打开语音交互开发的大门获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2435883.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…