deepseek降智

猪猪侠 2026-06-30 15:49 1

各位最近使用deepseek有没有降智的感觉？特别是上下文超过500k基本就很容易开始抽搐。

最新回复 (17)

Bisquiz 06-30 15:50

1楼

上下文超过 500k…这是正常情况吧

最大上下文 1m ≠ 有效上下文 1m
瑶瑶发大财 06-30 15:51

2楼

还行没什么不一样的感觉你用的是官方的吗
猪猪侠楼主 06-30 15:55

3楼

是的买的官方api 之前都挺好的就最近感觉很笨
inliver 06-30 15:55

4楼

也许是新的那个spark技术还在测试，没有之前稳定，毕竟变快了
Martini 06-30 15:58

5楼

刚刚被ds的气完，然后换gemini同样的问题都没问它几次就给出比较好的方案了
风戈秦 06-30 15:58

6楼

感觉这周用是降智了，上周用其实还好
猪猪侠楼主 06-30 15:58

7楼

也没感觉变快哇只是感觉变蠢了最近修代码各种反复横跳
猪猪侠楼主 06-30 15:59

8楼

对就是这周感觉特别明显变得非常笨
keeshow 06-30 16:02

9楼

而且现在deepseek在高峰期收费要翻倍了，很难受
猪猪侠楼主 06-30 16:02

10楼

（帖子已被作者删除）
猪猪侠楼主 06-30 16:03

11楼

那也没得选，还是它便宜，其他的都太贵了
lingtian 06-30 16:05

12楼

没有感觉怎么样降智，但是收费加价就很难受。
猪猪侠楼主 06-30 16:08

13楼

难受也只能用它，api里面比它便宜的没它好，比它好的肯定比它贵
Eeevan 06-30 16:08

14楼

现在属实是太便宜了吧。而且正式版估计后训练会发力啊，能力应该会大大提高。涨价无可厚非。而且也在能接受的范围内吧，毕竟你买其他的coding plan，它在高峰期的使用倍数也是双倍。就是DeepSeek定义的这个高峰期有点太长了吧，基本上把白天都包住了。

KenithZ 06-30 16:13

15楼

根据微软的longrope2的结果显示。YaRN在LLaMA3-8B上128K长度分数确实不高。同理可得dsv4也是使用的YaRN，所以上下文越长召回率越低。属于正常状态。128k都衰减这么严重。1M上下文召回率只会更低。这是所有大模型的通病。并非ds一家的问题。 ^-^不要过于担忧。

下文为微软longrope项目中LongRoPE2分支的README.md关于成绩的节选：

LongRoPE2 在 RULER 基准测试中，该方法明显优于之前的 SOTA 方法（NTK、YaRN 和 LongRoPE 1.0），尤其是在 128k 限制下。

RULER Benchmark（平均分）

Method (Base: LLaMA3-8B)	4k	8k	16k	32k	64k	128k
YaRN	91.86	87.87	84.67	68.80	62.51	49.39
NTK	94.38	92.64	87.33	91.93	79.26	73.19
LongRoPE (Gen 1)	94.60	92.70	86.60	91.01	81.23	73.40
LongRoPE2 (Ours)	94.61	93.68	92.31	90.49	85.62	82.03

Tully 06-30 16:18

16楼

都降了，现在一个个都是蠢驴（我也是）
猪猪侠楼主 06-30 16:19

17楼

我指的是它对比之前，并不是说大上下文的问题 ^-^

* 帖子来源Linux.do

附近帖子

飞读

猪猪侠

主题数
1

帖子数
1

注册排名
3

随机推荐