谷歌Gemma 4 26B实测：1024人同时用，每秒灌进47万token

像素与芯片

2026-05-14 07:12 ·北京

周三下午，一个工程师盯着屏幕上的绿色指示灯松了口气——vLLM服务终于跑起来了。这次的主角是谷歌刚放出的Gemma 4 26B，跑在TPU v6e集群上，开了KV FP8量化、推测解码，用的是bfloat16精度。地址挂出来：34.95.135.58:8000，谁都能测。

先说最刺激的。1024个人同时往里塞1.6万字的上下文，系统没崩，prefill吞吐顶到了475,552 token每秒。这是之前v3版本根本跑不到的数字——那时候同档位测试直接超时。但代价也有：单用户低负载时反而慢了，1人/1024上下文，首token延迟0.489秒，比历史最优的0.116秒慢了3倍多。工程师猜是模型刚启动，KV缓存和JAX编译缓存都还没热起来。

打开网易新闻查看精彩图片

TTFT（首token时间）的曲线很规矩。单用户1.6万上下文约1.1秒，1024用户同档位平均19.2秒，线性爬升，没出幺蛾子。但32768 token的测试全挂了，HTTP 400。原因是vLLM服务器的max_model_len硬设成32768，而测试要的是32768 prompt + 1生成token = 32769，超了1个就死给你看。

对比历史数据，128用户/1.6万上下文档位，这次prefill 37.9万token/s，比v3峰值44.6万低了15%，但算在TPU v6e-8的正常波动区间。真正的新纪录只有1024用户那一档——之前没人跑到过。

所以这张图怎么读？高并发稳定性是实打实的进步，低延迟冷启动是待填的坑，而那个32768的硬 ceiling，是配置层的限制，不是模型或硬件的锅。下次有人吹"支持32K上下文"，记得问清楚包不包括生成的那1个token。

特别声明：本文为网易自媒体平台“网易号”作者上传并发布，仅代表该作者观点。网易仅提供信息发布平台。

打开网易新闻体验更佳