很多人并没有建立 AI 时代的底层思维

BA nana 2026-07-03 17:07 1

几乎每个月,网上都会涌现出一些新的术语,提示词工程、上下文工程、Harness 工程……

很多概念都只是流于表面,简单分享我的思维模型。


LLM 的推理阶段作为切入点,引入AI 物理学的概念。我们知道,Token 在向量空间中本质上是高维的离散点。为了方便理解,可以将其抽象为一个俯视的地势图。



每次从山顶释放一颗小球,它会在重力势能下顺着山坡滑落,最终滚进某个低洼的山谷并停下来。在 Transformer 的推理过程中,每生成一个词,就像是放下一个小球。小球最终停在低洼点,代表了采样的词(比如 Token = 学)。


在实际对话中,AI 需要输出一连串的词。每当一个小球落入某个山谷,它自身的“重量”就会压弯地面,每个小球静止后,都会引起空间势能面的形变,进而改变整个势能空间,从而影响后续采样小球在该空间中的运动轨迹。


比如,可以把一次采样过程看成这样:



  1. 第一颗小球落在 [学],它的重量改变了地表形状;

  2. 第二颗小球在变形后的山坡上滚落,滑进了 [AI]

  3. 地势再次发生形变,第三颗小球滚入 [上]


以此类推,直到小球最终滚进 <EOS> 程序停止,并形成完整的话:



学 ai 上 Linuxdo



这就是单轮对话的过程,当我们开启下一轮对话,输入新的提问,比如 [为] [什么] 时,这些新 token 会作为人为放置的重物,形成上下文空间。


以上是简化的 LLM 推理过程。实际的 AI 物理学要复杂得多。



  • 高维空间。实际的语义空间维度高达数千维,且不同模型的空间稠密度与势能分布存在差异。

  • 非连续性。Token 在空间中是离散分布的,势能空间不是光滑的,而是由无数网格组成。

  • Temperature 对采样的影响。在高 Temperature 下,粒子运动活跃,采样结果更具随机性;在低 Temperature 下,粒子运动受限,纯靠势能驱动,采样结果更趋于固定。

  • Token 间的斥力。例如 Transformer 中的 Frequency Penalty(频率惩罚)机制,就是模拟粒子间的斥力避免进入死循环。

  • 运动时的阻尼或摩擦力。例如 Layer NormalizationDropout 机制在信息流动的网络中起到类似空气阻力或阻尼器的作用。


探讨 AI 物理学会有系统的结构体系,等以后有时间再写文章专门细说。既然现在大家已经有了基础的物理学概念,那我就来抛出一些使用技巧的第一性原理。



本质上,提示词工程就是对语义空间的势能塑造



1. 语义锚点


这里的重点不是少说话,而是减少无效扰动。 当无法明确表达时,我们往往会用很长的自然语言去描绘一个模糊的场景,而实际上,这个场景可能只需几个关键词即可精准概括。



  • 关键词:爱因斯坦 相对论 时空弯曲 科普 通俗易懂

  • 冗余描述:请你用最通俗易懂、连小学生都能听懂的话,帮我稍微解释一下爱因斯坦的相对论到底讲了什么?主要是时空弯曲,不要用复杂的公式。


理想状态下存在极限信息密度,每个输入的 Token 都以 100% 的效率指向下一个目标 Token 的概率分布。实际对话中几乎无法实现,语言符号本身具有多义性,必要的描述则作为关键的约束。


因此,在实操中尽可能保持高信息密度不仅是为了节省 token 成本,也是为了长链任务过程中维持确定性,防止语义漂移。一旦对话在极早阶段采样到了一个稍微偏离预期的 Token,这个偏离的 Token 就会作为新的“引力源”,在后续的采样中产生滚雪球效应——长链任务难题。



在让 AI 生成一段 Tailwind CSS 的复杂页面布局时,上下文夹杂了噪声:“我以前常用 Bootstrap”


单点偏离发生在极早阶段。由于“Bootstrap”这个强特征词的存在,模型在生成页面最外层容器时发生偏离,采样输出了 class="row"(Bootstrap 语法)而不是 Tailwind 的 class="grid grid-cols-12"


这个初始 Tokenrow)瞬间改变了后续的势能面,形成长链漂移。为了维持代码在上下文中的自洽性,模型在接下来的几十行代码中,被迫沿着 Bootstrap 的逻辑继续采样,输出 col-md-6col-lg-4 等类名。



2. 中英混杂


LLM 在预训练阶段吸收了 GitHub 上几乎所有的开源前端框架、设计系统和 W3C 标准。英文术语在这里不是装饰,而是更稳定的语义锚点。 因此,英文专业术语在模型高维空间中的语义锚点会极其收敛且精准。但是基于物理学模型我们可以延伸出更深入的技巧,中英夹杂方式在 Self-Attention 计算中,这种语境切换会产生一种“势能落差”。



纯中文:帮我写一个搜索输入框,用户输入时要做防抖处理,并在下方展示一个悬浮提示框。


中英夹杂:帮我写一个搜索输入框,用户输入时要做 Debounce 处理,并在下方通过 Popover 展示搜索结果。



中文内突然插入的 DebouncePopover 两个英文词汇,在学术和开源代码语料中具有极高的收敛度,在势能面上瞬间形成极深的重力井



在分词器中,英文专业词汇通常是一个完整且高频的 Token;而中文短语往往会被切碎成多个低频的子字符。这种实体密度的落差,在注意力矩阵中天然会吸引更多的计算权重。





讨论主线是想带大家洞悉AI世界存在的底层物理哲学

先到这里,马上下班过周末了,等我后续更新

最新回复 (17)
  • Froosen 07-03 17:09
    1

    好贴,对于很多人来说,现在用ai确实不会接触到那么深的地方

  • 陈泽- 07-03 17:11
    2

    再说直白点现在的大模型输出的信息,就是一个词语接龙的游戏,

    学->

    生:0.7

    校:0.8

    术:0.5

    → 学校

  • 初九猫 07-03 17:14
    3

    AI 时代的底层思维是什么意思?或者说,什么是“底层思维”? ^-^

  • beautifulrem 07-03 17:14
    4

    这个比喻确实比现在单纯的LLM概率学解释要跟直观,也更深入,支持。

  • BA nana 楼主 07-03 17:18
    5

    对的,这是技术本质,怎么利用这个机制得到我们需要的上下文是关键

  • pluto233 07-03 17:20
    6

    w 英文关键词学到了喵~ 后续开新帖还是更新本帖的喵~(逃

  • MoonyMoony 07-03 17:21
    7

    先码后看,已成习惯,感谢大佬分享关系ai使用的技巧

  • BA nana 楼主 07-03 17:21
    8

    其实是想揭露一种物理学底层法则,等我后续补充下

  • Nacho Neko 07-03 17:23
    9

    写的非常好,受教了,收藏+书签。

  • 初九猫 07-03 17:25
    10

    我的意思是我理解中的“底层思维”和楼主的帖子内容不一致,我看到标题以为是要讲AI时代应该需要进行哪些认知上的范式转换,结果看到的是AI的工作原理。理论上讲,了解了AI的工作原理有助于理解他的能力范围和能力边界,但是终归还是相差过大,所以我希望能进一步理解所谓的“底层思维”是什么。



    我觉得Gemini的回答就比较符合我对“底层思维”的第一印象。之前倒是看过一个类似的讲AI工作原理的博文:【文章分享】记录俺在学习过程中有价值的AI文章 第一个推荐的文章就是。

  • 冷月映秋风 07-03 17:25
    11

    感觉挺深入和底层的,学习一下。我目前提示词都是先自然语言描述,让ai自己转化为提示词,然后再输入,感觉效率有点低。

  • Novert 07-03 17:27
    12

    每次从山顶释放一颗小球,它会在重力势能下顺着山坡滑落,最终滚进某个低洼的山谷并停下来。在 Transformer 的推理过程中,每生成一个词,就像是放下一个小球。小球最终停在低洼点,代表了采样的词(比如 Token = 学)。



    训练是 local search 但推理不是。

  • BA nana 楼主 07-03 17:35
    13

    是的佬,这里我用势能空间来抽象 kv cache 对后续采样的影响

  • Novert 07-03 17:59
    14

    理论上 kv cache 应该不会影响采样空间吧,它只影响推理速度。


    你的意思可能是 “历史 token 会间接改变后续 token 的条件分布”,但这个作用严格意义上并不是 kv cache 带来的,后者只是复用前者的 k/v。


    另外,剔除我不了解的量子力学(雾)领域,实际上这个世界的本质就是球从山上滚下来 ^-^

  • khalil1 07-03 18:02
    15

    LLM底层逻辑的话建议看一下3b1b的可视化视频,非常通俗易懂

  • 常伴左右 07-03 18:09
    16

    也是类似于大海捞针,需要找到自己的几根线,引导AI帮你找到针,还是得自己会。

  • BA nana 楼主 07-03 18:16
    17

    这个世界的本质就是球从山上滚下来



    实际不会影响采样空间,我把token比做空间内运动的粒子,粒子间的作用力会影响下一个采样,但是粒子运动太复杂了,就借用势能空间的概念

* 帖子来源Linux.do
返回