关于 AI 回答的延迟问题

Anyzbr4026 2026-07-05 23:16 1

第一次发帖。想请教一下佬们:AI/Codex 这类交互的延迟,应该从哪个方向优化?


主要关键词:机场节点 VPS 延迟 Codex


1. 缘起


我自己开了一个codex 20x,平时也会用fast模式。但是有时候感觉fast模式并没有在体感上快很多,而额度反而掉的非常快。


本着工程师的精神,我跑了fast/标准模式的 AB 测试,发现确实并没有快很多,达不到 fast 标称的 1.5 倍的速度。


“为什么这么慢?!”


于是我展开了一系列的调研、探索、尝试。



2. 环境 & 目标



  • 服务器:腾讯云南京 TencentOS(ip 会波动,限ip 的机场无法使用)

  • 使用场景:主要是 Codex/ChatGPT 类 AI 编程交互,经常会有多个 codex session 并发编程,以及长时间(比如我最长一个任务运行了 40 个小时)运行——这有稳定性要求,后边会提。

  • 本地统一用 mihomo/Clash完成代理(类似于 clash 的 cli 命令行版本)

  • 测试目标不是普通网页打开速度,而是真实 Codex response 延迟和长尾


3. 我尝试过的方案


我经过一些测试,发现速度慢的主要原因是因为我之前的机场节点太卡了,导致response 交互的过程中延迟比较高,即便 codex 的fast 可以提升我在 codex 的中的请求序列优先级,也被这种长延迟给平均了。


为了衡量各个节点的质量,我设了一个基准测试机制:



  • 复用一个 Codex app-server

  • 连续发送多次简单请求:Reply with exactly: ok

  • 统计 avg / p50 / p90 / worst (平均值、中位数、90% 的数据小于等于它、最差值)


3.1 探索1:服务器可以直连codex


虽然我的服务器是南京的,但是竟然可以直接使用 codex,出口 ip 是新加坡,不知道是不是腾讯云都这样,如果不是,就是内网腾讯云服务器单独对出口做了优化。


我也是偶然间才知道这一点。


经过测试,连续发生 20 次请求,发现直连的速度,比当时的机场节点的速度要快得多,也就是说,我用这个机场节点,还不如直连。


当我把代理关掉,直接直连使用 codex,速度有明显的提升。



注:avg 6879ms,就是执行一次 response 的时候,最快的一次时间。


但是我发现直连也有它的问题,就是它很不稳定,快的时候是真快,但经常会有波动,波动还很大。


3.2 探索2:我能不能用更好的机场节点来进一步提升速度?


所以我就在考虑,能不能通过有一个非常精品的机场节点,既提升了速度,又保障稳定性?


由于机场三元图,我要求的超低延迟和超强稳定性,所以我就没看便宜/二线机场,只逐步调研国内的各大一线精品机场,奶昔、wgetcloud、boostnet…我找了七八家机场,有的是限 IP,我并不清楚不能在云服务器上使用,结果在并发的时候,直接所有节点都 timeout。


有的是能在服务器上使用,但节点非常不稳定,经常性的 timeout,或者长尾不稳定,或者还不如我直连的效果好…


这个过程是一个血泪史,花费了很多的钱,进行了非常多的尝试。


最终是落到了Gomami 架构的新机场——上帝世界。最初,我看到它的日本节点的延迟,我惊到了,我从没用到过这么低延迟的日本节点。



测试数据:



我会有一个长时间的监控程序,这个是当时对上帝世界日本 02节点进行了长时间 610 轮的测试,它也会有波动,最大值 49366,长尾也蛮大的。但是 P90 15998 说明大部分节点还是比较稳定,延迟比较低的。而平均值就吊打直连了。



此时这个时候,codex 的响应速度已经很棒了,fast 的时候,体感非常快。


但上帝世界机场有它的问题,它是一家小机场,有的时候不稳定,会被封 IP,以及目前情况下,仍然有延迟的波动问题。


3.3 探索3:如何更进一步?


我更进一步的了解到了家宽落地机,了解到了沪日专线,了解到了丽萨主机等新内容。


我看了站内 ICMP不可达喵 这位大佬的相关帖子,深感这个方向的水很深,很复杂。


4. 疑问


感觉到了这一步,我个人的专业知识已经无法 cover 了,想求助各位佬友答疑解惑。


我的目的并不是干净的 ip,因为codex 并不太关心 ip 的问题,我要的是超低的延迟,以至于响应速度尽可能的快,以及超强的稳定性,以至于延迟可以一直低,而不是长尾很差。




  1. 假如我想在这条路上走到黑,我的极致在哪里?方案是什么?




  2. 我目前的探索,使用这个机场,是否已经比较极致了?我不清楚理论上来说,我能达到的最低延迟应该是多少?是否还有优化的空间?




  3. 住宅 IP/原生 IP 跟我有关系吗?




  4. 服务器是南京的,更推荐下面哪种?



    • 新加坡

    • 日本

    • 台湾




  5. 猫猫分享过一套方案:上海/华东入口 + 沪日 IPLC/IXP + 日本落地,这个和我现在使用的狗妈架构的机场有什么差别吗?




感谢佬们解惑^-^

最新回复 (2)
  • 还想成为88VIP 07-05 23:17
    1

    别的不知道,最低延迟可以试试gen2,上海好像30+,不过用ai对延迟要求没这么高吧。性价比最高的就是v.ps的378o了,但是现在买不到。现在能买的性价比最高的应该是riven的年付499刀。日本台湾都可以吧,买台湾鸡的好像没那么多,新加坡延迟会高点。

    隔壁找了一个nq,这个是晚上8点的



    你用美国的试试?平均都十几秒了感觉去追求线路的低延迟意义不大

  • Anyzbr4026 楼主 07-05 23:48
    3

    感谢佬。


    我测试的 codex response 是 codex从进程开始到完成回答的响应时间,因为 ai 的首 token 回答的通常都比较慢,所以平均十秒是正常的。


    我刚才测试了上帝世界的美国节点,它在 clash 面板中的延迟是 210ms:


    意外的感觉和新加坡、日本的差距并不大。似乎延迟确实并不是那么重要。


     路径           成功率        avg        p50        p90      worst
    ━━━━━━━━━━━━━ ━━━━━━━━ ━━━━━━━━━ ━━━━━━━━━ ━━━━━━━━━ ━━━━━━━━━
    SG02 基线 10/10 13939ms 13222ms 17276ms 19284ms
    ───────────── ──────── ───────── ───────── ───────── ─────────
    JP02ld 基线 10/10 14982ms 14948ms 17678ms 20914ms
    ───────────── ──────── ───────── ───────── ───────── ─────────
    US01 10/10 16664ms 16312ms 33211ms 34545ms
    ───────────── ──────── ───────── ───────── ───────── ─────────
    US02 10/10 15586ms 16014ms 19238ms 19246ms
    ───────────── ──────── ───────── ───────── ───────── ─────────
    US03 10/10 14258ms 15368ms 18937ms 19040ms
    ───────────── ──────── ───────── ───────── ───────── ─────────
    US04 首轮 10/10 11061ms 12406ms 19261ms 19686ms
    ───────────── ──────── ───────── ───────── ───────── ─────────
    US04 复测 10/10 17223ms 17324ms 23646ms 23818ms

    感觉我的方向可能有点问题了。


* 帖子来源Linux.do
返回