求个便宜够用的多模态模型推荐

LinglingZ 2026-06-28 16:23 1

Hermes感觉没有多模态不好用，DeepSeek确实便宜，但是没有多模态属实是硬伤，有没有便宜的性能跟DeepSeek flash差不多的多模态的模特推荐呢，各位佬^-^

最新回复 (11)

Hydrangea 06-28 16:31

1楼

推荐加一个mimo-v2.5的vision副模型在识别图片的时候会自动调用效果很不错不过肯定比不过gemini这种了但是是真的便宜啊 ^-^ 如果一定要原生多模态的话可以看看gemini-3.1-flash-lite 缓存命中比deepseek-v4-pro贵一些其他都比v4-pro更便宜 ^-^
Zeitwanderer 06-28 16:35

2楼

Deepseek+glm4.6v 的 MCP。在 Agent .MD 里加上当前模型为 Deepseek 时，需要识图的情况就调用这个 MCP。

给智谱充 5 块钱能用到天荒地老 ^-^
LinglingZ 楼主 06-28 16:39

3楼

这样啊，我还以为智谱的模型都很贵呢，我试试看
Akatsuki 06-28 16:39

4楼

zcode应该也是用的这个办法，glm5.2是文本模型，然后需要识图时，调个识图的多模态模型，图片转文字，然后再发给glm5.2，好像还有一个方式是read工具，把图片他会上传到服务器，然后read图，感觉跟第一个方式类似的
Zeitwanderer 06-28 16:43

5楼

测试了几下花了几分钱。不是复杂图片还是够用的。

看了一下是 glm-vision-mcp-server。

你把他和 APIkey 丢给 CC 让它自己配置就行。
feetSlip 06-28 16:45

6楼

加一个本地的gemma其实也可以吧，如果只是为了看张图…
scp3500 06-28 17:22

7楼

用中转站的gpt5.4mini当识图模型,一般价格比v4flash还低,识图性能的话参考图片

价格的话给你参考,输入3059tokens,输出1196tokens

智力指数相近,缺点就是中转难以保证缓存命中,长上下文可能消费爆炸
xinxinzi 06-28 17:58

8楼

没必要搞多模啊，直接配个便宜的识图模型就行
点点点…点娘！ 06-28 18:01

9楼

直接用火山的豆包不就可以了吗？

每天都能白嫖额度

识别精度也是杠杠的
elio_h 06-28 18:45

10楼

用opencode go，里面国产大模型都有，包括GLM-5.2，很全，首月只要5美元。尤其是dp v4-flash，一个月接近50亿token，怎么也蹬不完
老文 06-28 18:48

11楼

最佳方案：opencode go 套餐，deepseek v4 flash 做主力，然后用套餐里面最便宜多模态比如说qwen 做视图模型。

当然你喜欢白嫖线上百炼的qwen 也可以，但是目前来说opencode 的go 套餐是最划算的

https://linux.do/t/topic/2441405