(超级慢讯)DeepSeek发布疑似针对gemma4和qwen3的草稿模型

ArkaneFans 2026-06-29 19:41 1

看了眼deepseek的抱抱脸仓库,发现最近上传了一些神秘模型,惯例没有模型卡




乍一看还以为是什么新的蒸馏模型呢,研究了下好像是采用eagle3和DFlash这两者推测解码算法的草稿模型,联想到之前deepseek的论文,应该是做实验用的。

如果能加速推理效果好还是很不错的,就是不知道为啥还要搞个qwen3的草稿模型 ^-^

最新回复 (1)
  • ArkaneFans 楼主 06-29 20:12
    1

    哈这,我搜了下还真是,慢讯了 ^-^

* 帖子来源Linux.do
返回