kokoroTTS

一款仅8200万参数的开源AI语音合成模型,轻量高效,支持多语言和多种语音风格,可免费商用。

voice 🆓 免费 🔓 开源
✨ 仅82M参数,性能媲美大模型✨ 支持多语言及耳语等特殊风格✨ 开源免费商用(Apache 2.0)✨ CPU近实时合成,延迟低于100ms✨ 可定制10+语音包,适合内容创作
🌐 访问官网 →

产品概述

Kokoro TTS 是基于 StyleTTS 2 架构的开源文本转语音模型,参数量仅 82M,却能在语音质量上媲美数十亿参数的大模型。它采用纯解码器设计,结合 ISTFTNet 高效频谱生成,无需扩散模型,大幅降低计算资源消耗。支持美式英语、英式英语、法语、日语、韩语和中文等多种语言,并提供 10 余种预设语音包(如 Bella、Adam、Sarah),甚至包含耳语等特殊风格。模型基于 100 小时精选合规数据集训练,采用 Apache 2.0 许可证,允许免费商用和二次开发。

核心优势