← 返回首页
用70年前的算法,他把谷歌搜索变成了知识图谱|knn|py|余弦|向量|知识图谱|算法|谷歌搜索_手机网易网 网易 网易号 0

用70年前的算法,他把谷歌搜索变成了知识图谱

硅屿手记
2026-05-16 04:34 ·北京
0

全球7000种语言,AI能翻译的不到200种。但更让人头疼的是:人类学习时的大脑跳跃,搜索引擎根本跟不上。

上周,一位开发者读了一篇关于量化的ArXiv论文,随即去NVIDIA论坛搜索FP16与INT8的对比,又转到GitHub找带优化内核的Llama.cpp分支——这套"脑力体操"耗时费力,Google做不到,大模型也做不到。

打开网易新闻 查看精彩图片

于是他换了个思路:用1951年诞生的K近邻算法(KNN),把100次谷歌搜索的约800条结果合并成一个语料库,全部嵌入向量空间,再跑一遍余弦相似度KNN。结果令人意外——42.2%的邻近链接跨越了不同查询的边界,797份文档每一份都在其前8个邻居中至少有一个来自其他搜索。

技术实现上,他设计了四步流水线:ingest.py用DuckDB收集多查询结果,保留(url, query)对;embed.py将标题、摘要、域名、查询词转为向量存入Chroma;neighbors.py在全局空间跑余弦KNN;serve.py提供最小化API和点击即查的UI。高亮链接意味着它们来自不同查询。

核心转变在于:从"这个查询排什么名"变成"这个文档附近有什么"。KNN的本地性让它无需训练,直接挖掘嵌入结构里已有的关联——跨查询、跨域名、跨抽象层级。

完整代码已开源。一个1951年的算法,解的是2024年的信息过载。

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
打开网易新闻体验更佳

热搜

热门跟贴

相关推荐

回到顶部 回到首页