给 AI 分个类的话,普通人视角该怎么分?顺便求教各领域的顶流模型

nianshou 2026-07-01 03:39 1

我自己分了 音声、视觉、语言 三个类型,不知道合不合理。 ^-^(不过感觉当前多模态已经把我自己分的这个界限变得模糊不清了)


如果这样分的话,又可以每个类型又可以细分一下,拿音声举例,我又分成下列的几个方面,然后让搭载着全球最大搜索引擎——谷歌搜索的美国豆包来回答。(用的是ai studio里的gemini 3.5flash,思考:high,提示词强制联网搜索)




  • 语音合成(TTS):目前闭源比较强的是 ElevenLabsMiniMax (Speech-02 HD);开源则是 Qwen3-TTS

  • 语音识别与转写(STT)OpenAI Whisper (Whisper-large-v3)

  • 声音克隆/转换VoGen 以及开源的 F5-TTS / Fish Speech

  • AI 音乐生成Suno AIUdio




欢迎佬们来讨论。


这种“音声、视觉、语言”的分法太局限了,不知道佬们怎么分类。接触AI没那么深只能这样按自己的理解分一下。

最新回复 (2)
  • NukaColaM 07-01 03:54
    1

    CNN和Transformer,再加个GNN。虽然这是深度学习的分类。

  • 天怒 07-01 04:10
    2

    分类没意义,这是一种松鼠病行为,在现在这个快速迭代的时代,变化太快了,需要的时候再查就好了。

    比如 OpenAI Whisper已经拉完了。

    而且也很难切出来,因为内部还有无数细分,比如嘈杂环境优化,内置llm,。

* 帖子来源Linux.do
返回