阿里Qwen3-TTS重磅发布!不仅支持毫秒级超低延迟,更带来四大王炸功能:高保真语音克隆、自由语音设计、超类人自然发音以及基于自然语言的精准语音控制。想哭想笑、语速快慢,一句Prompt全搞定,语音生成迈入“捏脸”时代!
一、Qwen3-TTS声音模型介绍昨天阿里又推了个好东西呢,就是通义千问推出的全新语音生成系列Qwen3-TTS。 这是一套由 Qwen 开发的强大语音生成功能,全面支持语音克隆、语音设计、超高品质类人语音生成以及基于自然语言的语音控制。它为开发者和用户提供了目前最全面的语音生成功能。
声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁
Qwen3-TTS 支持 10 种主要语言(中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文和意大利文),以及多种方言语音配置文件,以满足全球应用需求。此外,该模型具有强大的上下文理解能力,能够根据指令和文本语义自适应地控制语调、语速和情感表达,并且对噪声输入文本的鲁棒性显著提高 主要特性- 强大的语音表示 :采用自主研发的 Qwen3-TTS-Tokenizer-12Hz,实现了高效的声学压缩和语音信号的高维语义建模。它完整保留了副语言信息和声学环境特征,通过轻量级的非 DiT 架构,实现了高速、高保真的语音重建。
- 通用端到端架构 :采用离散多码本语言模型架构,实现全信息端到端语音建模。这完全绕过了传统语言模型+数字信息技术方案中固有的信息瓶颈和级联误差,显著提高了模型的通用性、生成效率和性能上限。
- 超低延迟流式生成 :基于创新的双轨混合流式生成架构,单个型号即可支持流式和非流式生成。输入单个字符后即可立即输出第一个音频包,端到端合成延迟低至 97 毫秒,满足实时交互场景的严苛要求。
- 智能文本理解与语音控制 :支持基于自然语言指令的语音生成,可灵活控制音色、情感和韵律等多维声学属性。通过深度整合文本语义理解,该模型能够自适应地调整音调、节奏和情感表达,实现“所见即所得”的逼真输出。
声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁
超好玩,推荐给你! 二、相关安装目前ComfyUI插件已经有大佬开发支持,我发到网盘了。 模型一共分成1.7B和0.6B
声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁
声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁
直接推荐用1.7B的,显存占用也不高。 网盘也给大家提供了模型网盘,下载后放到路径:modelsqwen-tts
声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁
三、测评体验这次一共是有三块功能: 分别对应节点都有配套的。
声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁
节点是很简单的,根据需求弄即可,不同功能模型加载的是不同的。 - 声音设计=Qwen3-TTS-12Hz-1.7B-VoiceDesign
- 声音克隆=Qwen3-TTS-12Hz-1.7B-Base
- 声音自定义=Qwen3-TTS-12Hz-1.7B-CustomVoice
其他没什么好说的,直接来看一些案例效果,挺有意思 声音设计声音涉及核心是提示词描述,可以根据我们的提示词来生成不同的音色,这个很好玩。
声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁
绿茶音,夹子音
性别:女性
年龄:青年
口音:台湾腔(软糯尾音)
音高:中高起调,随情绪逐步上扬至极高,音高起伏大
语速:初始偏快,后段因激动愈发急促,间有短暂气口停顿
音量:从中等音量逐步提升至大声呼喊,最后声嘶力竭
音色质感:清甜女声,略带湿润感,伴随情绪递进出现轻微颤抖与哭腔
清晰度:吐字清晰,台湾腔特色发音自然不生硬
流畅度:整体连贯,情绪爆发处略有语无伦次的重复,贴合真实状态
情绪:急切担忧→苦苦哀求→崩溃无助
语调:劝阻式起调,加入哀求时语调下沉,最后情绪爆发语调高亢上扬,句尾带 “啦” 字软糯尾音
语气:焦急恳劝,满含无奈与心疼,无攻击性,纯情绪式呼喊
性别:男性
年龄: 25-35 岁
口音:标准普通话(略带憨厚的平民语感,无地域口音)
音高:中调起音,随情绪递进逐步拔高至极高,音高起伏剧烈,重复呼喊时音高拉满
语速:初始平缓故作镇定,后段急促慌乱,重复喊 “燕子” 时几乎无停顿,哭腔处略有拖音
音量:从轻柔克制的音量逐步提升,到呼喊时放大,最后至声嘶力竭的大喊,全程音量层次分明
音色质感:略带憨厚的普通男声,混有雨中的湿润感,情绪爆发时嗓音沙哑哽咽,满是浓重哭腔,有真实的嘶吼撕裂感
清晰度:初始吐字清晰、咬字克制,崩溃后略有含混但核心词(燕子、怎么活)发音有力
流畅度:初始表达连贯,情绪崩溃后因大哭出现断句、气口混乱,贴合真人哭喊的真实状态,无刻意流畅感
情绪:强装镇定的祝福→不舍的急切呼唤→撕心裂肺的绝望哀求
语调:初始平和略带哽咽,祝福时语调微沉故作洒脱,呼喊时语调高亢上扬,哀求 “带我走吧” 时语调下沉,满是哭腔拖音
语气:从故作洒脱的假意祝福,逐步转为无法克制的不舍,最后是撕心裂肺的绝望哀求,饱含多年深情的执念与失去爱人的无助
声音克隆
声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁
加载模型后传入一个参考的音色声音,最后把你参考的声音的文案也给出来,这样效果会更好。 下面是参考音色 [backcolor=var(--APPMSGCARD-BG)]还是挺像的,真不错呢!
声音自定义
声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁
对于 Qwen3-TTS-12Hz-1.7B/0.6B-CustomVoice 型号,下方提供了支持的说话人列表和说话人描述。我们建议使用每位说话人的母语以获得最佳音质。当然,每位说话人都可以说该型号支持的任何语言。
声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁
然后就是针对同一个人,你其实可以给不同的情绪的,这个自由度就很高了。 帕鲁大陆最不缺的就是帕鲁,你不干有的是帕鲁干。
同一个文案,我跑了不同的人音色。 [backcolor=var(--APPMSGCARD-BG)][color=var(--APPMSGCARD-BG)]<font]四川版-不干,嘟嘟AI绘画趣味学,3秒
[backcolor=var(--APPMSGCARD-BG)]
挺好玩的,效果不错,功能挺多,大家可以多玩玩。
|