很多人并没有建立 AI 时代的底层思维

BA nana 2026-07-03 17:07 1

几乎每个月，网上都会涌现出一些新的术语，提示词工程、上下文工程、Harness 工程……

很多概念都只是流于表面，简单分享我的思维模型。

以 LLM 的推理阶段作为切入点，引入AI 物理学的概念。我们知道，Token 在向量空间中本质上是高维的离散点。为了方便理解，可以将其抽象为一个俯视的地势图。

每次从山顶释放一颗小球，它会在重力势能下顺着山坡滑落，最终滚进某个低洼的山谷并停下来。在 Transformer 的推理过程中，每生成一个词，就像是放下一个小球。小球最终停在低洼点，代表了采样的词（比如 Token = 学）。

在实际对话中，AI 需要输出一连串的词。每当一个小球落入某个山谷，它自身的“重量”就会压弯地面，每个小球静止后，都会引起空间势能面的形变，进而改变整个势能空间，从而影响后续采样小球在该空间中的运动轨迹。

比如，可以把一次采样过程看成这样：

第一颗小球落在 [学]，它的重量改变了地表形状；

第二颗小球在变形后的山坡上滚落，滑进了 [AI]；

地势再次发生形变，第三颗小球滚入 [上]…

以此类推，直到小球最终滚进 <EOS> 程序停止，并形成完整的话：

学 ai 上 Linuxdo

这就是单轮对话的过程，当我们开启下一轮对话，输入新的提问，比如 [为] [什么] 时，这些新 token 会作为人为放置的重物，形成上下文空间。

以上是简化的 LLM 推理过程。实际的 AI 物理学要复杂得多。

高维空间。实际的语义空间维度高达数千维，且不同模型的空间稠密度与势能分布存在差异。

非连续性。Token 在空间中是离散分布的，势能空间不是光滑的，而是由无数网格组成。

Temperature 对采样的影响。在高 Temperature 下，粒子运动活跃，采样结果更具随机性；在低 Temperature 下，粒子运动受限，纯靠势能驱动，采样结果更趋于固定。

Token 间的斥力。例如 Transformer 中的 Frequency Penalty（频率惩罚）机制，就是模拟粒子间的斥力避免进入死循环。

运动时的阻尼或摩擦力。例如 Layer Normalization 和 Dropout 机制在信息流动的网络中起到类似空气阻力或阻尼器的作用。

探讨 AI 物理学会有系统的结构体系，等以后有时间再写文章专门细说。既然现在大家已经有了基础的物理学概念，那我就来抛出一些使用技巧的第一性原理。

本质上，提示词工程就是对语义空间的势能塑造

1. 语义锚点

这里的重点不是少说话，而是减少无效扰动。 当无法明确表达时，我们往往会用很长的自然语言去描绘一个模糊的场景，而实际上，这个场景可能只需几个关键词即可精准概括。

关键词：爱因斯坦相对论时空弯曲科普通俗易懂

冗余描述：请你用最通俗易懂、连小学生都能听懂的话，帮我稍微解释一下爱因斯坦的相对论到底讲了什么？主要是时空弯曲，不要用复杂的公式。

理想状态下存在极限信息密度，每个输入的 Token 都以 100% 的效率指向下一个目标 Token 的概率分布。实际对话中几乎无法实现，语言符号本身具有多义性，必要的描述则作为关键的约束。

因此，在实操中尽可能保持高信息密度不仅是为了节省 token 成本，也是为了长链任务过程中维持确定性，防止语义漂移。一旦对话在极早阶段采样到了一个稍微偏离预期的 Token，这个偏离的 Token 就会作为新的“引力源”，在后续的采样中产生滚雪球效应——长链任务难题。

在让 AI 生成一段 Tailwind CSS 的复杂页面布局时，上下文夹杂了噪声：“我以前常用 Bootstrap”

单点偏离发生在极早阶段。由于“Bootstrap”这个强特征词的存在，模型在生成页面最外层容器时发生偏离，采样输出了 class="row"（Bootstrap 语法）而不是 Tailwind 的 class="grid grid-cols-12"。

这个初始 Token（row）瞬间改变了后续的势能面，形成长链漂移。为了维持代码在上下文中的自洽性，模型在接下来的几十行代码中，被迫沿着 Bootstrap 的逻辑继续采样，输出 col-md-6、col-lg-4 等类名。

2. 中英混杂

LLM 在预训练阶段吸收了 GitHub 上几乎所有的开源前端框架、设计系统和 W3C 标准。英文术语在这里不是装饰，而是更稳定的语义锚点。 因此，英文专业术语在模型高维空间中的语义锚点会极其收敛且精准。但是基于物理学模型我们可以延伸出更深入的技巧，中英夹杂方式在 Self-Attention 计算中，这种语境切换会产生一种“势能落差”。

纯中文：帮我写一个搜索输入框，用户输入时要做防抖处理，并在下方展示一个悬浮提示框。

中英夹杂：帮我写一个搜索输入框，用户输入时要做 Debounce 处理，并在下方通过 Popover 展示搜索结果。

中文内突然插入的 Debounce 和 Popover 两个英文词汇，在学术和开源代码语料中具有极高的收敛度，在势能面上瞬间形成极深的重力井

在分词器中，英文专业词汇通常是一个完整且高频的 Token；而中文短语往往会被切碎成多个低频的子字符。这种实体密度的落差，在注意力矩阵中天然会吸引更多的计算权重。

…

讨论主线是想带大家洞悉AI世界存在的底层物理哲学

先到这里，马上下班过周末了，等我后续更新

最新回复 (17)

Froosen 07-03 17:09

1楼

好贴，对于很多人来说，现在用ai确实不会接触到那么深的地方
陈泽- 07-03 17:11

2楼

再说直白点现在的大模型输出的信息，就是一个词语接龙的游戏，

学->

生：0.7

校：0.8

术：0.5

→ 学校
初九猫 07-03 17:14

3楼

AI 时代的底层思维是什么意思？或者说，什么是“底层思维”？ ^-^
beautifulrem 07-03 17:14

4楼

这个比喻确实比现在单纯的LLM概率学解释要跟直观，也更深入，支持。
BA nana 楼主 07-03 17:18

5楼

对的，这是技术本质，怎么利用这个机制得到我们需要的上下文是关键
pluto233 07-03 17:20

6楼

w 英文关键词学到了喵~ 后续开新帖还是更新本帖的喵~(逃
MoonyMoony 07-03 17:21

7楼

先码后看，已成习惯，感谢大佬分享关系ai使用的技巧
BA nana 楼主 07-03 17:21

8楼

其实是想揭露一种物理学底层法则，等我后续补充下
Nacho Neko 07-03 17:23

9楼

写的非常好，受教了，收藏+书签。
初九猫 07-03 17:25

10楼

我的意思是我理解中的“底层思维”和楼主的帖子内容不一致，我看到标题以为是要讲AI时代应该需要进行哪些认知上的范式转换，结果看到的是AI的工作原理。理论上讲，了解了AI的工作原理有助于理解他的能力范围和能力边界，但是终归还是相差过大，所以我希望能进一步理解所谓的“底层思维”是什么。

我觉得Gemini的回答就比较符合我对“底层思维”的第一印象。之前倒是看过一个类似的讲AI工作原理的博文：【文章分享】记录俺在学习过程中有价值的AI文章第一个推荐的文章就是。
冷月映秋风 07-03 17:25

11楼

感觉挺深入和底层的，学习一下。我目前提示词都是先自然语言描述，让ai自己转化为提示词，然后再输入，感觉效率有点低。
Novert 07-03 17:27

12楼

每次从山顶释放一颗小球，它会在重力势能下顺着山坡滑落，最终滚进某个低洼的山谷并停下来。在 Transformer 的推理过程中，每生成一个词，就像是放下一个小球。小球最终停在低洼点，代表了采样的词（比如 Token = 学）。

训练是 local search 但推理不是。
BA nana 楼主 07-03 17:35

13楼

是的佬，这里我用势能空间来抽象 kv cache 对后续采样的影响
Novert 07-03 17:59

14楼

理论上 kv cache 应该不会影响采样空间吧，它只影响推理速度。

你的意思可能是 “历史 token 会间接改变后续 token 的条件分布”，但这个作用严格意义上并不是 kv cache 带来的，后者只是复用前者的 k/v。

另外，剔除我不了解的量子力学（雾）领域，实际上这个世界的本质就是球从山上滚下来 ^-^
khalil1 07-03 18:02

15楼

LLM底层逻辑的话建议看一下3b1b的可视化视频，非常通俗易懂
常伴左右 07-03 18:09

16楼

也是类似于大海捞针，需要找到自己的几根线，引导AI帮你找到针，还是得自己会。
BA nana 楼主 07-03 18:16

17楼

这个世界的本质就是球从山上滚下来

实际不会影响采样空间，我把token比做空间内运动的粒子，粒子间的作用力会影响下一个采样，但是粒子运动太复杂了，就借用势能空间的概念