关于 AI 回答的延迟问题

Anyzbr4026 2026-07-05 23:16 1

第一次发帖。想请教一下佬们：AI/Codex 这类交互的延迟，应该从哪个方向优化？

主要关键词：机场节点 VPS 延迟 Codex

1. 缘起

我自己开了一个codex 20x，平时也会用fast模式。但是有时候感觉fast模式并没有在体感上快很多，而额度反而掉的非常快。

本着工程师的精神，我跑了fast/标准模式的 AB 测试，发现确实并没有快很多，达不到 fast 标称的 1.5 倍的速度。

“为什么这么慢？！”

于是我展开了一系列的调研、探索、尝试。

2. 环境 & 目标

服务器：腾讯云南京 TencentOS（ip 会波动，限ip 的机场无法使用）

使用场景：主要是 Codex/ChatGPT 类 AI 编程交互，经常会有多个 codex session 并发编程，以及长时间（比如我最长一个任务运行了 40 个小时）运行——这有稳定性要求，后边会提。

本地统一用 mihomo/Clash完成代理（类似于 clash 的 cli 命令行版本）

测试目标不是普通网页打开速度，而是真实 Codex response 延迟和长尾

3. 我尝试过的方案

我经过一些测试，发现速度慢的主要原因是因为我之前的机场节点太卡了，导致response 交互的过程中延迟比较高，即便 codex 的fast 可以提升我在 codex 的中的请求序列优先级，也被这种长延迟给平均了。

为了衡量各个节点的质量，我设了一个基准测试机制：

复用一个 Codex app-server

连续发送多次简单请求：Reply with exactly: ok

统计 avg / p50 / p90 / worst （平均值、中位数、90% 的数据小于等于它、最差值）

3.1 探索1：服务器可以直连codex

虽然我的服务器是南京的，但是竟然可以直接使用 codex，出口 ip 是新加坡，不知道是不是腾讯云都这样，如果不是，就是内网腾讯云服务器单独对出口做了优化。

我也是偶然间才知道这一点。

经过测试，连续发生 20 次请求，发现直连的速度，比当时的机场节点的速度要快得多，也就是说，我用这个机场节点，还不如直连。

当我把代理关掉，直接直连使用 codex，速度有明显的提升。

注：avg 6879ms，就是执行一次 response 的时候，最快的一次时间。

但是我发现直连也有它的问题，就是它很不稳定，快的时候是真快，但经常会有波动，波动还很大。

3.2 探索2：我能不能用更好的机场节点来进一步提升速度？

所以我就在考虑，能不能通过有一个非常精品的机场节点，既提升了速度，又保障稳定性？

由于机场三元图，我要求的超低延迟和超强稳定性，所以我就没看便宜/二线机场，只逐步调研国内的各大一线精品机场，奶昔、wgetcloud、boostnet…我找了七八家机场，有的是限 IP，我并不清楚不能在云服务器上使用，结果在并发的时候，直接所有节点都 timeout。

有的是能在服务器上使用，但节点非常不稳定，经常性的 timeout，或者长尾不稳定，或者还不如我直连的效果好…

这个过程是一个血泪史，花费了很多的钱，进行了非常多的尝试。

最终是落到了Gomami 架构的新机场——上帝世界。最初，我看到它的日本节点的延迟，我惊到了，我从没用到过这么低延迟的日本节点。

测试数据：

我会有一个长时间的监控程序，这个是当时对上帝世界日本 02节点进行了长时间 610 轮的测试，它也会有波动，最大值 49366，长尾也蛮大的。但是 P90 15998 说明大部分节点还是比较稳定，延迟比较低的。而平均值就吊打直连了。

此时这个时候，codex 的响应速度已经很棒了，fast 的时候，体感非常快。

但上帝世界机场有它的问题，它是一家小机场，有的时候不稳定，会被封 IP，以及目前情况下，仍然有延迟的波动问题。

3.3 探索3：如何更进一步？

我更进一步的了解到了家宽落地机，了解到了沪日专线，了解到了丽萨主机等新内容。

我看了站内 ICMP不可达喵 这位大佬的相关帖子，深感这个方向的水很深，很复杂。

4. 疑问

感觉到了这一步，我个人的专业知识已经无法 cover 了，想求助各位佬友答疑解惑。

我的目的并不是干净的 ip，因为codex 并不太关心 ip 的问题，我要的是超低的延迟，以至于响应速度尽可能的快，以及超强的稳定性，以至于延迟可以一直低，而不是长尾很差。

假如我想在这条路上走到黑，我的极致在哪里？方案是什么？

我目前的探索，使用这个机场，是否已经比较极致了？我不清楚理论上来说，我能达到的最低延迟应该是多少？是否还有优化的空间？

住宅 IP/原生 IP 跟我有关系吗？

服务器是南京的，更推荐下面哪种？
- 新加坡
- 日本
- 台湾

猫猫分享过一套方案：上海/华东入口 + 沪日 IPLC/IXP + 日本落地，这个和我现在使用的狗妈架构的机场有什么差别吗？

感谢佬们解惑^-^

最新回复 (2)

还想成为88VIP 07-05 23:17

1楼

别的不知道，最低延迟可以试试gen2，上海好像30+，不过用ai对延迟要求没这么高吧。性价比最高的就是v.ps的378o了，但是现在买不到。现在能买的性价比最高的应该是riven的年付499刀。日本台湾都可以吧，买台湾鸡的好像没那么多，新加坡延迟会高点。

隔壁找了一个nq，这个是晚上8点的

你用美国的试试？平均都十几秒了感觉去追求线路的低延迟意义不大

Anyzbr4026 楼主 07-05 23:48

3楼

感谢佬。

我测试的 codex response 是 codex从进程开始到完成回答的响应时间，因为 ai 的首 token 回答的通常都比较慢，所以平均十秒是正常的。

我刚才测试了上帝世界的美国节点，它在 clash 面板中的延迟是 210ms：

意外的感觉和新加坡、日本的差距并不大。似乎延迟确实并不是那么重要。

 路径           成功率        avg        p50        p90      worst

━━━━━━━━━━━━━  ━━━━━━━━  ━━━━━━━━━  ━━━━━━━━━  ━━━━━━━━━  ━━━━━━━━━

 SG02 基线       10/10    13939ms    13222ms    17276ms    19284ms

─────────────  ────────  ─────────  ─────────  ─────────  ─────────

 JP02ld 基线     10/10    14982ms    14948ms    17678ms    20914ms

─────────────  ────────  ─────────  ─────────  ─────────  ─────────

 US01            10/10    16664ms    16312ms    33211ms    34545ms

─────────────  ────────  ─────────  ─────────  ─────────  ─────────

 US02            10/10    15586ms    16014ms    19238ms    19246ms

─────────────  ────────  ─────────  ─────────  ─────────  ─────────

 US03            10/10    14258ms    15368ms    18937ms    19040ms

─────────────  ────────  ─────────  ─────────  ─────────  ─────────

 US04 首轮       10/10    11061ms    12406ms    19261ms    19686ms

─────────────  ────────  ─────────  ─────────  ─────────  ─────────

 US04 复测       10/10    17223ms    17324ms    23646ms    23818ms

感觉我的方向可能有点问题了。

* 帖子来源Linux.do

附近帖子