大模型不会数数!违反常识的问题

llej 2026-07-01 10:05 1


Transformer 没有一个"离散、可验证、逐步更新"的状态来维护计数。



现在这个时代似乎大模型什么都能干,每天自媒体都是大模型干翻这个那个,前端又被杀了。


但是他不会数数!不信您可以试试发一段文本给大模型让他输出一下文本中的所有名词的位置,十有八九是会有错误的位置。


对于这个问题我不是大模型专家,不知道究竟是为什么,但是事实上就是他数数不太行


如何解决这个问题?


但是有些场景是依赖大模型输出对应的下标的,这似乎又是必须依赖大模型数数了。


例如利用大模型标记文档中的所有写错了的文字。


既然直接数数不行,但是如果你让大模型去复述文本却能得到很高的准确率。


那么自然而然的就能想到,将文本先按字拆分,然后将下标和文字一起给大模型,例如 : 1:大 2:模 3:型 4:不 5:会 6:数 7:数 这样之后输出的下标准确率就会飙升。


下面是一个简单的尝试,显而易见的 带坐标输入 的方案准确率更好
image


更好的解决方案


在经过一段时间的尝试和摸索之后,我发现就是结合文本分段,再加上一个上下文的一个后期的坐标修正是能够达到最佳的一个体验的。


例如给每一个段落分配一个 id 交给大模型,并且让他输出的时候携带相关文本前面一段文本和后面一段文本,输出示例: {before:'交给',target:'大模型',after:',并且',snippet:'片段 id'}


这样基本能达到 95% 以上的准确率了。




上面是一些拙见,欢迎指正交流更好的方案




实际应用场景,文档校对 demo 演示:


image

最新回复 (21)
  • pi1ot 07-01 10:10
    1
    一个字符概率机,当然不会。
  • paopjian 07-01 10:35
    2
    大模型第一个工作就是 tokenizer, 你先去了解一下 tokenizer 是做什么, 不然哪天又惊呼 strawberry 连 r 有几个都数不清
  • liulicaixiao 07-01 10:56
    3
    最简单的办法是让它写代码
  • maplezzz 07-01 10:58
    4
    做过类似的校对 skill ,先让他自己写个计数的脚本,要计数的时候调脚本计算
  • wsseo 07-01 11:05
    5
    比如这个麻将,少哪一张牌,没有 AI 做得对。
  • hertzry 07-01 11:39
    6
    一般违反常识的东西,都是常识不对。
  • cocogovern 07-01 13:09
    7
    @wsseo 你让 claude code 来做不就完了
  • jimrok 07-01 13:15
    8
    所以,AGI 还没有来,人类还有救。现在的 AI 还是辅助我们的工具,离开了人,他啥也不想干。
  • xking 07-01 13:52
    9
    @wsseo 这副麻将里少了一张北风(北字风牌)。
    这是一个很经典的麻将识牌题,完整的标准麻将(无花牌共 136 张)中,东南西北四种风牌各有 4 张,而这堆牌里北风仅能数出 3 张,是唯一数量不足 4 张的牌种。

    豆包专家模式
  • opengps 07-01 13:58
    10
    推理能力确实跟基础能力不是一回事, 他能给你输出一段程序数数,但终归还没有到觉醒意识那一步
  • tanx 07-01 14:16
    11

    都不怎么样
  • Rickkkkkkk 07-01 14:18
    12
    这在之前是问题,现在有了 agent 早就不是问题了呀...

    你也不会算一个超大的数乘以另外一个数是多少,你会拿出计算器。

    现在大模型也会自己写脚本。
  • allanwell 07-01 14:19
    13
    大模型强的是推理,不是计算。
  • bzj 07-01 15:57
    14
    https://imgur.com/a/VA4zWKB

    没用过好的
  • bzj 07-01 15:59
    15


  • tf2 07-01 16:03
    16
    我会这样写 prompt:

    把下段文本里的名词都替换成 NOUN ,然后写一段代码统计 NOUN 字符的数量。务必精确。
  • mwVYYA6 07-01 16:05
    17
    感觉楼主是穿越了
    这篇一眼就是生成的内容可能被举报
  • llej 楼主 07-01 16:57
    18
    @mwVYYA6 如果把我定义为 AI 的话,这一篇确实就是 AI 生成的内容了
  • llej 楼主 07-01 16:59
    19
    @Rickkkkkkk agent 等方案确实是可行的,但做产品直接上 agent 是不合适的,例如文中提到的核稿场景,我想说的就是如果仅用一次大模型调用就解决问题,这样可以节约 token
  • llej 楼主 07-01 17:00
    20
    @tf2 重写文本然后再 diff 确实也是一个方案
  • darksword21 07-01 17:13
    21
    v2ex 越来越低智了
* 帖子来源V2EX
返回