93

主题

2

回帖

172

修为

绘灵

积分
374
阿里Qwen3-TTS重磅发布!不仅支持毫秒级超低延迟,更带来四大王炸功能:高保真语音克隆、自由语音设计、超类人自然发音以及基于自然语言的精准语音控制。想哭想笑、语速快慢,一句Prompt全搞定,语音生成迈入“捏脸”时代!


一、Qwen3-TTS声音模型介绍

昨天阿里又推了个好东西呢,就是通义千问推出的全新语音生成系列Qwen3-TTS。

这是一套由 Qwen 开发的强大语音生成功能,全面支持语音克隆语音设计超高品质类人语音生成以及基于自然语言的语音控制。它为开发者和用户提供了目前最全面的语音生成功能。

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

Qwen3-TTS 支持 10 种主要语言(中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文和意大利文),以及多种方言语音配置文件,以满足全球应用需求。此外,该模型具有强大的上下文理解能力,能够根据指令和文本语义自适应地控制语调、语速和情感表达,并且对噪声输入文本的鲁棒性显著提高

主要特性
  • 强大的语音表示 :采用自主研发的 Qwen3-TTS-Tokenizer-12Hz,实现了高效的声学压缩和语音信号的高维语义建模。它完整保留了副语言信息和声学环境特征,通过轻量级的非 DiT 架构,实现了高速、高保真的语音重建。
  • 通用端到端架构 :采用离散多码本语言模型架构,实现全信息端到端语音建模。这完全绕过了传统语言模型+数字信息技术方案中固有的信息瓶颈和级联误差,显著提高了模型的通用性、生成效率和性能上限。
  • 超低延迟流式生成 :基于创新的双轨混合流式生成架构,单个型号即可支持流式和非流式生成。输入单个字符后即可立即输出第一个音频包,端到端合成延迟低至 97 毫秒,满足实时交互场景的严苛要求。
  • 智能文本理解与语音控制 :支持基于自然语言指令的语音生成,可灵活控制音色、情感和韵律等多维声学属性。通过深度整合文本语义理解,该模型能够自适应地调整音调、节奏和情感表达,实现“所见即所得”的逼真输出。

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

超好玩,推荐给你!

二、相关安装

目前ComfyUI插件已经有大佬开发支持,我发到网盘了。

模型一共分成1.7B和0.6B

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

直接推荐用1.7B的,显存占用也不高。

网盘也给大家提供了模型网盘,下载后放到路径:modelsqwen-tts

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

三、测评体验

这次一共是有三块功能:

  • 语音设计
  • 声音克隆
  • 自定义语音

分别对应节点都有配套的。

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

节点是很简单的,根据需求弄即可,不同功能模型加载的是不同的。

  • 声音设计=Qwen3-TTS-12Hz-1.7B-VoiceDesign
  • 声音克隆=Qwen3-TTS-12Hz-1.7B-Base
  • 声音自定义=Qwen3-TTS-12Hz-1.7B-CustomVoice

其他没什么好说的,直接来看一些案例效果,挺有意思

声音设计

声音涉及核心是提示词描述,可以根据我们的提示词来生成不同的音色,这个很好玩。

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

绿茶音,夹子音

性别:女性
年龄:青年
口音:台湾腔(软糯尾音)
音高:中高起调,随情绪逐步上扬至极高,音高起伏大
语速:初始偏快,后段因激动愈发急促,间有短暂气口停顿
音量:从中等音量逐步提升至大声呼喊,最后声嘶力竭
音色质感:清甜女声,略带湿润感,伴随情绪递进出现轻微颤抖与哭腔
清晰度:吐字清晰,台湾腔特色发音自然不生硬
流畅度:整体连贯,情绪爆发处略有语无伦次的重复,贴合真实状态
情绪:急切担忧→苦苦哀求→崩溃无助
语调:劝阻式起调,加入哀求时语调下沉,最后情绪爆发语调高亢上扬,句尾带 “啦” 字软糯尾音
语气:焦急恳劝,满含无奈与心疼,无攻击性,纯情绪式呼喊

性别:男性
年龄: 25-35 岁
口音:标准普通话(略带憨厚的平民语感,无地域口音)
音高:中调起音,随情绪递进逐步拔高至极高,音高起伏剧烈,重复呼喊时音高拉满
语速:初始平缓故作镇定,后段急促慌乱,重复喊 “燕子” 时几乎无停顿,哭腔处略有拖音
音量:从轻柔克制的音量逐步提升,到呼喊时放大,最后至声嘶力竭的大喊,全程音量层次分明
音色质感:略带憨厚的普通男声,混有雨中的湿润感,情绪爆发时嗓音沙哑哽咽,满是浓重哭腔,有真实的嘶吼撕裂感
清晰度:初始吐字清晰、咬字克制,崩溃后略有含混但核心词(燕子、怎么活)发音有力
流畅度:初始表达连贯,情绪崩溃后因大哭出现断句、气口混乱,贴合真人哭喊的真实状态,无刻意流畅感
情绪:强装镇定的祝福→不舍的急切呼唤→撕心裂肺的绝望哀求
语调:初始平和略带哽咽,祝福时语调微沉故作洒脱,呼喊时语调高亢上扬,哀求 “带我走吧” 时语调下沉,满是哭腔拖音
语气:从故作洒脱的假意祝福,逐步转为无法克制的不舍,最后是撕心裂肺的绝望哀求,饱含多年深情的执念与失去爱人的无助


声音克隆

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

加载模型后传入一个参考的音色声音,最后把你参考的声音的文案也给出来,这样效果会更好。

下面是参考音色

[backcolor=var(--APPMSGCARD-BG)]
还是挺像的,真不错呢!


声音自定义

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

对于 Qwen3-TTS-12Hz-1.7B/0.6B-CustomVoice 型号,下方提供了支持的说话人列表和说话人描述。我们建议使用每位说话人的母语以获得最佳音质。当然,每位说话人都可以说该型号支持的任何语言。

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

声音可以“捏”出来了!Qwen3-TTS 重磅更新:克隆、设计、控声全功能解禁

然后就是针对同一个人,你其实可以给不同的情绪的,这个自由度就很高了。

帕鲁大陆最不缺的就是帕鲁,你不干有的是帕鲁干。

同一个文案,我跑了不同的人音色。

[backcolor=var(--APPMSGCARD-BG)][color=var(--APPMSGCARD-BG)]<font]四川版-不干,嘟嘟AI绘画趣味学,3秒
[backcolor=var(--APPMSGCARD-BG)]

挺好玩的,效果不错,功能挺多,大家可以多玩玩。



您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

© 2001-2026 BBS.Monster