TTS文字转语音模型咨询

Mark 2026-06-29 17:22 1

各位佬好,

最近在做一个小玩具,场景里涉及到聊天对话,文本模型接入的是deepseek v4 flash,再接一个TTS模型转人声。


TTS目前试过本地部署的index tts 2, qwen3 tts, moss-nano

也尝试了mimo tts 2.5

总体感觉下来index tts 2最强,支持音色克隆,情绪控制,人声效果也很好,可惜部署要求太高,5090显卡(租的算力平台)生成都需要很长时间

moss nano最快,但明显有ai感

qwen3 tts慢,人声效果中等

mimo是在线免费的,人声效果也不错,但是情感控制有些问题,经常出现一句话里都是一种情绪,或者不带情绪(情绪标签偶尔不生效?)


后续部署是想搞一台服务器,不带gpu,所以只能跑cpu或者在线模型了^-^


想请教各位大佬有没有什么模型推荐,或者有更好的方案^-^^-^


三色图原理我懂的^-^ 不过还是有侥幸心理。


谢谢各位!

最新回复 (16)
  • krui 06-29 17:31
    1

    我也在做这个需求,但是我不是底层,如果有合适的方案,可以分享下

  • lindaniel 06-29 17:36
    2

    恰好前段时间鼓捣本地语音助手,用过kokoro piper 和 chattts (按轻到重排序)

    总之确实就那句话 没法既要又要 每个模型都有自己的优缺点 如果想要效果很好又不需要什么硬件的只能走api路子 如果是玩具的话其实api方案可能更适合 现在效果好的ai tts听多了感觉这些轻量级的效果都不太行

  • Huanggtr 06-29 17:38
    3

    是的,本地的效果和效率确实很难兼容,综合下来我觉得 QWen3 TTS 的效果还是可以的。但是 QWen3 无法跑满 GPU 占用,所以可能会稍微慢一点。

  • darksky 06-29 17:39
    4

    我之前想搞听书的TTS ,大模型的话可以试试 VoxCPM ,或者 直接edge-tts 不用啥配置就能跑 效果也很不错

  • nianshou 06-29 17:40
    5

    index tts是b站出品的那个吧?速度慢占用高。之前一直在用gpt-sovits,不知道现在发展到什么阶段了

  • polaris 06-29 17:41
    6

    阿里云百炼的qwen3tts速度还可以吧

    api价格在语音模型里算是最便宜一档了

  • 炫彩小鱼干 06-29 17:42
    7

    可以试试fish s2.1 pro,昨天试了一下,好像有200分钟的免费额度,挺好用的,我是用来音色克隆,然后读小说。不过我有一个4090,所以长期部署了一个S2 PRO,效果挺自然的,实时率大概0.5,确实不算快


    之前用的是cosyvoice3,S2 PRO在中英混读场景下比之前的好很多

  • Mark 楼主 06-29 17:43
    8

    是这样的,之前用算力平台跑完indextts 2的效果后,感觉其他的都差点意思^-^

  • TinyInsect 06-29 17:45
    9



    这个应该是从seedance2.0里摘出来的,其实用来生成对话加音效环境音最好,那纯对话也肯定可以,而且情绪喘息自然度之类的就是第一梯队了,我是在火山引擎里测了测,免费额度多少分钟也没找到,api价格也没找到 ^-^,但是可以试试

  • Mark 楼主 06-29 17:45
    10

    哦对,cosyvoice3也试了,效果也可以的,忘说了^-^

    不过onnx q4版本跑下来5,6秒的语音要跑30多秒,有点太难受了^-^

    这就是没有gpu服务器的问题了,要是有还可以上cosyvoice3

  • Mark 楼主 06-29 17:46
    11

    收到,这个还真不知道,只知道有视频生成!

    我去试试这个,感谢佬!

  • Mark 楼主 06-29 17:46
    12

    是的,index tts 2有vllm加速版本,占用还可以接受了,有gpu的话比较好。

  • 黑化的皮蛋 06-29 17:47
    13

    cosyvoice3 用VLLM来作为后端推理速度就快了

  • dcchan 06-29 17:49
    14

    在 mac 上同样用 Qwen3 来做,一开始挺慢的,后来切换到 mlx 版本快了不少。可以试试不同的版本。

  • Mark 楼主 06-29 18:13
    15

    cosyvoice我看到原版是可以vllm加速的,不太清楚onnx版本能不能行,我晚上试试看^-^

  • Mark 楼主 06-29 18:13
    16

    是的,mlx版本就是给mac特别做的,是有加成^-^

* 帖子来源Linux.do
返回