横向对比,主观感受:Sonnet | Opus | DeepSeek | GPT | GLM

𝐷𝑟.𝑌𝑎𝑜 2026-07-02 00:08 1

大模型的发展真可谓日新月异,你追我赶。

作为一个老码农,每天都在吃着碗里看着锅里,总是为还没用上下一个版本的大模型而捉急。


今天看到 Sonnet 5 可以用了,正好手头有一个小功能要做,于是想用它来试试深浅,我比较期望这是一个相对便宜的强力大模型。


不过因为是前端项目,我还是想多抽抽卡,在比较之下选一个相对满意的视觉效果。既然如此,干脆让比较常用的几个大模型都做一遍,做一个简单的横向对比。


基于我电脑上现有的配置,参与比赛的有:Sonnet 5Opus 4.8DeepSeek 4 Pro MaxGLM-5.2 以及昔日得力老将GPT-5.5


我的做法比较粗糙,就是基于同一个代码库分支为选手们创建各自的独立分支,给一个统一的提示词,然后查看结果。


任务比较简单,就是做一个组件,通过一个接口获取轨迹数据,然后在平面图上绘制出来,加一些工具即可。





提示词

现在我们需要设计并实现“人员轨迹预览”功能。

该功能拟放在人员信息弹窗的轨迹查询选项卡内,使其组件化,因为其他地方以后或许也要用到

后端api已经提供了可用的轨迹查询接口(/api/location/tags/tag-trajectories)

通过楼层信息接口,可以获取到企业的平面图,这是前提,默认取一楼的平面图即可

以平面图为主要视图,然后绘制查询到的轨迹,轨迹数据中的坐标除以1000即可转换为平面图像素坐标;组件默认查询最近24小时的轨迹信息,但我们在平面图下方可提供便捷的时间周期选择工具条,还要包括快捷操作“前一天”“后一天”




我本地有一个全局 Skill ,可以通过apifox缓存查询相关接口的具体定义、数据模型


成果展示


Sonnet 5 in Claude Code


成果图:



过程体验:



出乎我的意料,非常失望。

不说设计结果如何,过程就有点离谱,完全陌生,这还是Claude吗?

上来一顿操作探索之后就问我,接口是什么?

你竟然不会用我的查api的skill?说真的我已经很久没有在提示词里写接口信息了,他们可都是会自己查啊。

好吧,我把完整api地址复制给它,它竟然又连问我两遍接口是什么,但又不停下来等我答复,然后自顾自地决定先实现界面,稍后再确认接口。

然后,在写好代码准备检查代码时,它突然蹦出来一句:我注意到刚才用户提到了一个完整的api接口的url,这应该是真实的接口地址了……但是具体的接口参数是什么?

于是向我提问,我说你不会用我们的api查询skill自己查吗?

他说好的,于是自己编了一个叫api-skill的skill尝试加载,显然没有这个skill啊。

我无奈只好把完整的skill名称给他,这才算用上了。

最后好歹是做完了,见上图。完全没有遵循我的要求增加“前一天”“后一天”快捷按钮。

至于坐标绘制错误,这倒是不怪他,因为一开始没有给他解释坐标换算方法。



总结:



  • 自主使用skill ^-^

  • 遵循要求 ^-^

  • 代码无错 ^-^

  • 耗时:长

  • 费用:贵,¥19元(中转站)

  • 界面成果主观评价:不喜欢,不想采纳


Opus 4.8 in Claude Code


成果图:



过程体验:



稳如老狗。

理解需求、探索代码。

直接用skill调查api详细定义。

提了3个问题让我拍板。

制作计划。

动手实施,一气呵成。

没啥说的,顶级。



总结:



  • 自主使用skill ^-^

  • 遵循要求 ^-^

  • 代码无错 ^-^

  • 耗时:长

  • 费用:贼贵,¥27元(中转站)

  • 界面成果主观评价:很好,没有更好选择就这个了,喜欢这个轨迹配色。


DeepSeek 4 Pro Max in OpenCode


成果图:



过程体验:



快,真他娘的快 ^-^

我寻思接杯水回来看看D老师怎么干活,结果,干完了?

我有1秒钟怀疑他没给我好好干,结果看结果还不错啊。

只是运行起来有几个类型错误,修复了一轮。这也是我发现国产模型的欠缺之处,前端TS的严格模式代码还是写的不够精确,但逻辑和功能上没问题,只是个别细节不符合严格模式。



总结:



  • 自主使用skill ^-^

  • 遵循要求 ^-^

  • 代码无错 ^-^

  • 耗时:极短

  • 费用:忽略不计 ^-^,¥0.4元(官方API)

  • 界面成果主观评价:深得我心,让我更加期待正式版v4了。


GPT-5.5 in Codex


成果图:



过程体验:



稳如老狗,一如既往。

我用的最多的其实就是 GPT 了,最近总是听佬们说 5.5 有降智表现,我没有明显察觉但也有点怀疑,所以最近用 GLM 更多一些。

不过就这次任务表现来看,没什么问题,可能任务太简单了。

也没有什么亮点。



总结:



  • 自主使用skill ^-^

  • 遵循要求 ^-^

  • 代码无错 ^-^

  • 耗时:中

  • 费用:少,¥1.6元(中转站)

  • 界面成果主观评价:能用,没什么亮点,毕竟前端对于GPT来说……。


GLM-5.2 in OpenCode


成果图:





过程体验:



你是真的爱思考 ^-^

推理链一如既往地长,充满了等等……但是让我再想想实际上不,我还是……let me 谨慎一点

但是!

谁说爱思考不好的!

GLM 是唯一一个成功揣摩朕意的!他给我做了滚动缩放!这完全是基于对需求的充分理解才能做出的决策。

他甚至在思考过程中考虑要不要用瓦片图来实现!但考虑到过于复杂放弃了。

我只能说,这一波操作,直接杀死了比赛。



总结:



  • 自主使用skill ^-^

  • 遵循要求 ^-^

  • 代码无错 ^-^ (和D老师一样,有个别不符合严格模式的写法)

  • 耗时:长

  • 费用:OpenCode Go 套餐中 5% 5小时额度

  • 界面成果主观评价:交互操作非常好!


我的感受



  • Sonnet 5 你醒醒啊,是不是A\给你喝了假酒 ^-^?

  • GLM 5.2 真的很强了。

  • 十分期待两周后的 DeepSeek 正式版。

  • 国产模型目前在严格编码上,至少是TS严格模式中,还欠点火候。


对于这次抽卡,我决定采纳:Opus 4.8 的配色;DeepSeek 设计的按钮;GLM 的平面图交互!

最新回复 (6)
  • Root1223 07-02 00:11
    1

    没有看到GLM5.2的成果呀,楼主放到哪里了?

  • 𝐷𝑟.𝑌𝑎𝑜 楼主 07-02 00:12
    2

    有的,还是两张呢。可能你那还没加载出来

  • wayned 07-02 00:25
    3

    对前端不太懂,模型改完代码之后不是会自己编译看是否没有错误才能编译通过吗?

  • 𝐷𝑟.𝑌𝑎𝑜 楼主 07-02 00:27
    4

    以我项目中的设置来看,编译没问题的,严格模式的错误,跑起来才会提示。

    当然我们可以通过项目配置、系统提示词提醒等手段,让模型静态检查出错误。

    不过我们现在可以看到,相同情况下,GPT和Opus是一遍过的。

  • dayangda163 07-02 00:36
    5

    国模真的可以了,相对价格低,效果也还可以

  • 你好❤️ 07-02 00:43
    6

    感谢测评,吐槽下glm确实太能思考了,昨天我一度以为卡掉线了,结果看了眼日志,真夯!


* 帖子来源Linux.do
返回