声音可以“捏”出来了！Qwen3-TTS 重磅更新：克隆、设计、控声全功能解禁

嘟先生 · 3 天前

阿里Qwen3-TTS重磅发布！不仅支持毫秒级超低延迟，更带来四大王炸功能：高保真语音克隆、自由语音设计、超类人自然发音以及基于自然语言的精准语音控制。想哭想笑、语速快慢，一句Prompt全搞定，语音生成迈入“捏脸”时代！

一、Qwen3-TTS声音模型介绍

昨天阿里又推了个好东西呢，就是通义千问推出的全新语音生成系列Qwen3-TTS。

这是一套由 Qwen 开发的强大语音生成功能，全面支持语音克隆、语音设计、超高品质类人语音生成以及基于自然语言的语音控制。它为开发者和用户提供了目前最全面的语音生成功能。

声音可以“捏”出来了！Qwen3-TTS 重磅更新：克隆、设计、控声全功能解禁

Qwen3-TTS 支持 10 种主要语言（中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文和意大利文），以及多种方言语音配置文件，以满足全球应用需求。此外，该模型具有强大的上下文理解能力，能够根据指令和文本语义自适应地控制语调、语速和情感表达，并且对噪声输入文本的鲁棒性显著提高

主要特性

强大的语音表示 ：采用自主研发的 Qwen3-TTS-Tokenizer-12Hz，实现了高效的声学压缩和语音信号的高维语义建模。它完整保留了副语言信息和声学环境特征，通过轻量级的非 DiT 架构，实现了高速、高保真的语音重建。
通用端到端架构 ：采用离散多码本语言模型架构，实现全信息端到端语音建模。这完全绕过了传统语言模型+数字信息技术方案中固有的信息瓶颈和级联误差，显著提高了模型的通用性、生成效率和性能上限。
超低延迟流式生成 ：基于创新的双轨混合流式生成架构，单个型号即可支持流式和非流式生成。输入单个字符后即可立即输出第一个音频包，端到端合成延迟低至 97 毫秒，满足实时交互场景的严苛要求。
智能文本理解与语音控制 ：支持基于自然语言指令的语音生成，可灵活控制音色、情感和韵律等多维声学属性。通过深度整合文本语义理解，该模型能够自适应地调整音调、节奏和情感表达，实现“所见即所得”的逼真输出。

声音可以“捏”出来了！Qwen3-TTS 重磅更新：克隆、设计、控声全功能解禁

项目地址：https://qwen.ai/blog?id=qwen3tts-0115

超好玩，推荐给你！

工作流：Qwen3 TTS全套语音生成-克隆/设计/自定义
体验地址：https://www.runninghub.cn/post/2 ... inviteCode=rh-v1093

二、相关安装

目前ComfyUI插件已经有大佬开发支持，我发到网盘了。

模型一共分成1.7B和0.6B

声音可以“捏”出来了！Qwen3-TTS 重磅更新：克隆、设计、控声全功能解禁

直接推荐用1.7B的，显存占用也不高。

网盘也给大家提供了模型网盘，下载后放到路径：modelsqwen-tts

声音可以“捏”出来了！Qwen3-TTS 重磅更新：克隆、设计、控声全功能解禁

三、测评体验

这次一共是有三块功能：

语音设计
声音克隆
自定义语音

分别对应节点都有配套的。

声音可以“捏”出来了！Qwen3-TTS 重磅更新：克隆、设计、控声全功能解禁

节点是很简单的，根据需求弄即可，不同功能模型加载的是不同的。

声音设计=Qwen3-TTS-12Hz-1.7B-VoiceDesign
声音克隆=Qwen3-TTS-12Hz-1.7B-Base
声音自定义=Qwen3-TTS-12Hz-1.7B-CustomVoice

其他没什么好说的，直接来看一些案例效果，挺有意思

声音设计

声音涉及核心是提示词描述，可以根据我们的提示词来生成不同的音色，这个很好玩。

声音可以“捏”出来了！Qwen3-TTS 重磅更新：克隆、设计、控声全功能解禁

绿茶音，夹子音

性别：女性
年龄：青年
口音：台湾腔（软糯尾音）
音高：中高起调，随情绪逐步上扬至极高，音高起伏大
语速：初始偏快，后段因激动愈发急促，间有短暂气口停顿
音量：从中等音量逐步提升至大声呼喊，最后声嘶力竭
音色质感：清甜女声，略带湿润感，伴随情绪递进出现轻微颤抖与哭腔
清晰度：吐字清晰，台湾腔特色发音自然不生硬
流畅度：整体连贯，情绪爆发处略有语无伦次的重复，贴合真实状态
情绪：急切担忧→苦苦哀求→崩溃无助
语调：劝阻式起调，加入哀求时语调下沉，最后情绪爆发语调高亢上扬，句尾带 “啦” 字软糯尾音
语气：焦急恳劝，满含无奈与心疼，无攻击性，纯情绪式呼喊

性别：男性
年龄: 25-35 岁
口音：标准普通话（略带憨厚的平民语感，无地域口音）
音高：中调起音，随情绪递进逐步拔高至极高，音高起伏剧烈，重复呼喊时音高拉满
语速：初始平缓故作镇定，后段急促慌乱，重复喊 “燕子” 时几乎无停顿，哭腔处略有拖音
音量：从轻柔克制的音量逐步提升，到呼喊时放大，最后至声嘶力竭的大喊，全程音量层次分明
音色质感：略带憨厚的普通男声，混有雨中的湿润感，情绪爆发时嗓音沙哑哽咽，满是浓重哭腔，有真实的嘶吼撕裂感
清晰度：初始吐字清晰、咬字克制，崩溃后略有含混但核心词（燕子、怎么活）发音有力
流畅度：初始表达连贯，情绪崩溃后因大哭出现断句、气口混乱，贴合真人哭喊的真实状态，无刻意流畅感
情绪：强装镇定的祝福→不舍的急切呼唤→撕心裂肺的绝望哀求
语调：初始平和略带哽咽，祝福时语调微沉故作洒脱，呼喊时语调高亢上扬，哀求 “带我走吧” 时语调下沉，满是哭腔拖音
语气：从故作洒脱的假意祝福，逐步转为无法克制的不舍，最后是撕心裂肺的绝望哀求，饱含多年深情的执念与失去爱人的无助

声音克隆

声音可以“捏”出来了！Qwen3-TTS 重磅更新：克隆、设计、控声全功能解禁