全球7000种语言,AI能翻译的不到200种。但更让人头疼的是:人类学习时的大脑跳跃,搜索引擎根本跟不上。
上周,一位开发者读了一篇关于量化的ArXiv论文,随即去NVIDIA论坛搜索FP16与INT8的对比,又转到GitHub找带优化内核的Llama.cpp分支——这套"脑力体操"耗时费力,Google做不到,大模型也做不到。
于是他换了个思路:用1951年诞生的K近邻算法(KNN),把100次谷歌搜索的约800条结果合并成一个语料库,全部嵌入向量空间,再跑一遍余弦相似度KNN。结果令人意外——42.2%的邻近链接跨越了不同查询的边界,797份文档每一份都在其前8个邻居中至少有一个来自其他搜索。
技术实现上,他设计了四步流水线:ingest.py用DuckDB收集多查询结果,保留(url, query)对;embed.py将标题、摘要、域名、查询词转为向量存入Chroma;neighbors.py在全局空间跑余弦KNN;serve.py提供最小化API和点击即查的UI。高亮链接意味着它们来自不同查询。
核心转变在于:从"这个查询排什么名"变成"这个文档附近有什么"。KNN的本地性让它无需训练,直接挖掘嵌入结构里已有的关联——跨查询、跨域名、跨抽象层级。
完整代码已开源。一个1951年的算法,解的是2024年的信息过载。