几乎每个月,网上都会涌现出一些新的术语,提示词工程、上下文工程、Harness 工程……
很多概念都只是流于表面,简单分享我的思维模型。
以 LLM 的推理阶段作为切入点,引入AI 物理学的概念。我们知道,Token 在向量空间中本质上是高维的离散点。为了方便理解,可以将其抽象为一个俯视的地势图。

每次从山顶释放一颗小球,它会在重力势能下顺着山坡滑落,最终滚进某个低洼的山谷并停下来。在 Transformer 的推理过程中,每生成一个词,就像是放下一个小球。小球最终停在低洼点,代表了采样的词(比如 Token = 学)。
在实际对话中,AI 需要输出一连串的词。每当一个小球落入某个山谷,它自身的“重量”就会压弯地面,每个小球静止后,都会引起空间势能面的形变,进而改变整个势能空间,从而影响后续采样小球在该空间中的运动轨迹。
比如,可以把一次采样过程看成这样:
- 第一颗小球落在
[学],它的重量改变了地表形状;
- 第二颗小球在变形后的山坡上滚落,滑进了
[AI];
- 地势再次发生形变,第三颗小球滚入
[上]…
以此类推,直到小球最终滚进 <EOS> 程序停止,并形成完整的话:
学 ai 上 Linuxdo 
这就是单轮对话的过程,当我们开启下一轮对话,输入新的提问,比如 [为] [什么] 时,这些新 token 会作为人为放置的重物,形成上下文空间。
以上是简化的 LLM 推理过程。实际的 AI 物理学要复杂得多。
- 高维空间。实际的语义空间维度高达数千维,且不同模型的空间稠密度与势能分布存在差异。
- 非连续性。
Token 在空间中是离散分布的,势能空间不是光滑的,而是由无数网格组成。
Temperature 对采样的影响。在高 Temperature 下,粒子运动活跃,采样结果更具随机性;在低 Temperature 下,粒子运动受限,纯靠势能驱动,采样结果更趋于固定。
Token 间的斥力。例如 Transformer 中的 Frequency Penalty(频率惩罚)机制,就是模拟粒子间的斥力避免进入死循环。
- 运动时的阻尼或摩擦力。例如
Layer Normalization 和 Dropout 机制在信息流动的网络中起到类似空气阻力或阻尼器的作用。
探讨 AI 物理学会有系统的结构体系,等以后有时间再写文章专门细说。既然现在大家已经有了基础的物理学概念,那我就来抛出一些使用技巧的第一性原理。
本质上,提示词工程就是对语义空间的势能塑造
1. 语义锚点
这里的重点不是少说话,而是减少无效扰动。 当无法明确表达时,我们往往会用很长的自然语言去描绘一个模糊的场景,而实际上,这个场景可能只需几个关键词即可精准概括。
- 关键词:爱因斯坦 相对论 时空弯曲 科普 通俗易懂
- 冗余描述:请你用最通俗易懂、连小学生都能听懂的话,帮我稍微解释一下爱因斯坦的相对论到底讲了什么?主要是时空弯曲,不要用复杂的公式。
理想状态下存在极限信息密度,每个输入的 Token 都以 100% 的效率指向下一个目标 Token 的概率分布。实际对话中几乎无法实现,语言符号本身具有多义性,必要的描述则作为关键的约束。
因此,在实操中尽可能保持高信息密度不仅是为了节省 token 成本,也是为了长链任务过程中维持确定性,防止语义漂移。一旦对话在极早阶段采样到了一个稍微偏离预期的 Token,这个偏离的 Token 就会作为新的“引力源”,在后续的采样中产生滚雪球效应——长链任务难题。
在让 AI 生成一段 Tailwind CSS 的复杂页面布局时,上下文夹杂了噪声:“我以前常用 Bootstrap”
单点偏离发生在极早阶段。由于“Bootstrap”这个强特征词的存在,模型在生成页面最外层容器时发生偏离,采样输出了 class="row"(Bootstrap 语法)而不是 Tailwind 的 class="grid grid-cols-12"。
这个初始 Token(row)瞬间改变了后续的势能面,形成长链漂移。为了维持代码在上下文中的自洽性,模型在接下来的几十行代码中,被迫沿着 Bootstrap 的逻辑继续采样,输出 col-md-6、col-lg-4 等类名。
2. 中英混杂
LLM 在预训练阶段吸收了 GitHub 上几乎所有的开源前端框架、设计系统和 W3C 标准。英文术语在这里不是装饰,而是更稳定的语义锚点。 因此,英文专业术语在模型高维空间中的语义锚点会极其收敛且精准。但是基于物理学模型我们可以延伸出更深入的技巧,中英夹杂方式在 Self-Attention 计算中,这种语境切换会产生一种“势能落差”。
纯中文:帮我写一个搜索输入框,用户输入时要做防抖处理,并在下方展示一个悬浮提示框。
中英夹杂:帮我写一个搜索输入框,用户输入时要做 Debounce 处理,并在下方通过 Popover 展示搜索结果。
中文内突然插入的 Debounce 和 Popover 两个英文词汇,在学术和开源代码语料中具有极高的收敛度,在势能面上瞬间形成极深的重力井
在分词器中,英文专业词汇通常是一个完整且高频的 Token;而中文短语往往会被切碎成多个低频的子字符。这种实体密度的落差,在注意力矩阵中天然会吸引更多的计算权重。
…
讨论主线是想带大家洞悉AI世界存在的底层物理哲学
先到这里,马上下班过周末了,等我后续更新