给 AI 分个类的话，普通人视角该怎么分？顺便求教各领域的顶流模型

nianshou 2026-07-01 03:39 1

我自己分了 音声、视觉、语言 三个类型，不知道合不合理。 ^-^(不过感觉当前多模态已经把我自己分的这个界限变得模糊不清了)

如果这样分的话，又可以每个类型又可以细分一下，拿音声举例，我又分成下列的几个方面，然后让搭载着全球最大搜索引擎——谷歌搜索的美国豆包来回答。(用的是ai studio里的gemini 3.5flash，思考：high，提示词强制联网搜索)

语音合成（TTS）：目前闭源比较强的是 ElevenLabs 和 MiniMax (Speech-02 HD)；开源则是 Qwen3-TTS。

语音识别与转写（STT）：OpenAI Whisper (Whisper-large-v3)。

声音克隆/转换： VoGen 以及开源的 F5-TTS / Fish Speech。

AI 音乐生成：Suno AI 和 Udio。

欢迎佬们来讨论。

这种“音声、视觉、语言”的分法太局限了，不知道佬们怎么分类。接触AI没那么深只能这样按自己的理解分一下。

最新回复 (2)

NukaColaM 07-01 03:54

1楼

CNN和Transformer，再加个GNN。虽然这是深度学习的分类。
天怒 07-01 04:10

2楼

分类没意义，这是一种松鼠病行为，在现在这个快速迭代的时代，变化太快了，需要的时候再查就好了。

比如 OpenAI Whisper已经拉完了。

而且也很难切出来，因为内部还有无数细分，比如嘈杂环境优化，内置llm，。

* 帖子来源Linux.do

附近帖子

↑sonnet5超绝敏感肌
↑ollama两个5小时的额度仅有500万token，20美金套餐一个月使用glm5.2仅5000万token
↑突然发现一个问题，我的app store无法退出账号了！（已解决，退出换位置了）
↑破案了，GPT 5.6 每个模型都有 Pro，怪不得改名
↑佬们，怎样用上5.6的灰度啊
📍 给 AI 分个类的话，普通人视角该怎么分？顺便求教各领域的顶流模型
↓终于有我们穷鬼Free用户也能用的新模型了
↓讲个恐怖故事
↓CPA 有没有限制每个拼车 api key 用量的插件
↓🔥 热知识，番茄『作者有话说』过不了审的话可以用正文写 ✓
↓One of my friend needed an invitation to join this community.

返回

飞读

nianshou

主题数
1

帖子数
1

注册排名
3

随机推荐