← 返回首页
谷歌Gemma 4 26B实测:1024人同时用,每秒灌进47万token|token|上下文|单用户|开源模型|服务器|知名企业|谷歌_手机网易网 网易 网易号 0

谷歌Gemma 4 26B实测:1024人同时用,每秒灌进47万token

像素与芯片
像素与芯片
2026-05-14 07:12 ·北京
0

周三下午,一个工程师盯着屏幕上的绿色指示灯松了口气——vLLM服务终于跑起来了。这次的主角是谷歌刚放出的Gemma 4 26B,跑在TPU v6e集群上,开了KV FP8量化、推测解码,用的是bfloat16精度。地址挂出来:34.95.135.58:8000,谁都能测。

先说最刺激的。1024个人同时往里塞1.6万字的上下文,系统没崩,prefill吞吐顶到了475,552 token每秒。这是之前v3版本根本跑不到的数字——那时候同档位测试直接超时。但代价也有:单用户低负载时反而慢了,1人/1024上下文,首token延迟0.489秒,比历史最优的0.116秒慢了3倍多。工程师猜是模型刚启动,KV缓存和JAX编译缓存都还没热起来。

打开网易新闻 查看精彩图片

TTFT(首token时间)的曲线很规矩。单用户1.6万上下文约1.1秒,1024用户同档位平均19.2秒,线性爬升,没出幺蛾子。但32768 token的测试全挂了,HTTP 400。原因是vLLM服务器的max_model_len硬设成32768,而测试要的是32768 prompt + 1生成token = 32769,超了1个就死给你看。

对比历史数据,128用户/1.6万上下文档位,这次prefill 37.9万token/s,比v3峰值44.6万低了15%,但算在TPU v6e-8的正常波动区间。真正的新纪录只有1024用户那一档——之前没人跑到过。

所以这张图怎么读?高并发稳定性是实打实的进步,低延迟冷启动是待填的坑,而那个32768的硬 ceiling,是配置层的限制,不是模型或硬件的锅。下次有人吹"支持32K上下文",记得问清楚包不包括生成的那1个token。

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
打开网易新闻体验更佳

热搜

热门跟贴

相关推荐

回到顶部 回到首页