用70年前的算法，他把谷歌搜索变成了知识图谱|knn|py|余弦|向量|知识图谱|算法|谷歌搜索_手机网易网网易网易号

用70年前的算法，他把谷歌搜索变成了知识图谱

硅屿手记

2026-05-16 04:34 ·北京

全球7000种语言，AI能翻译的不到200种。但更让人头疼的是：人类学习时的大脑跳跃，搜索引擎根本跟不上。

上周，一位开发者读了一篇关于量化的ArXiv论文，随即去NVIDIA论坛搜索FP16与INT8的对比，又转到GitHub找带优化内核的Llama.cpp分支——这套"脑力体操"耗时费力，Google做不到，大模型也做不到。

打开网易新闻查看精彩图片

于是他换了个思路：用1951年诞生的K近邻算法（KNN），把100次谷歌搜索的约800条结果合并成一个语料库，全部嵌入向量空间，再跑一遍余弦相似度KNN。结果令人意外——42.2%的邻近链接跨越了不同查询的边界，797份文档每一份都在其前8个邻居中至少有一个来自其他搜索。

技术实现上，他设计了四步流水线：ingest.py用DuckDB收集多查询结果，保留(url, query)对；embed.py将标题、摘要、域名、查询词转为向量存入Chroma；neighbors.py在全局空间跑余弦KNN；serve.py提供最小化API和点击即查的UI。高亮链接意味着它们来自不同查询。

核心转变在于：从"这个查询排什么名"变成"这个文档附近有什么"。KNN的本地性让它无需训练，直接挖掘嵌入结构里已有的关联——跨查询、跨域名、跨抽象层级。

完整代码已开源。一个1951年的算法，解的是2024年的信息过载。

特别声明：本文为网易自媒体平台“网易号”作者上传并发布，仅代表该作者观点。网易仅提供信息发布平台。

打开网易新闻体验更佳

用70年前的算法，他把谷歌搜索变成了知识图谱

热搜

热门跟贴

相关推荐

用70年前的算法，他把谷歌搜索变成了知识图谱

热搜

热门跟贴

相关推荐

谷歌"画圈搜索"升级：屏幕之外还能搜什么

云计算的"乐高困境"：一个老极客的图式突围

骂谷歌干蠢事、炮轰甲骨文、AI在真实数据库测试得分为0！83岁图灵奖数据库教父的硅谷“狂人日记”

2016年Google做了一款路由器，至今没人超越

他用一套提示词框架，跑通了整个生意

在AI时代，有这个能力的人不怕被淘汰

一个程序员厌倦了数据扁平化，于是自己写了对象图数据库

谷歌力推Googlebook！AI战争蔓延到系统层，鼠标成新入口

投中了理想、MiniMax 后，他说，AI 时代仍然要找「让人汗毛直竖」的创业者

近代很难找出像他一样的历史学家

图灵奖得主Sutton：用1967年的公式，解决流式强化学习一大缺陷

Need is all you need：AI接手Coding后，程序员最值钱能力只剩？

Codex App实测：跟龙虾思路迥异，OpenAI终于挽回点颜面

Agent将计算推向端侧，NAS不再仅是存储丨ToB产业观察

腾讯造了个“贾维斯”：替我签到改配置，还会打盹上厕所，一手实测来了

Anthropic“神话”又添新章：5日攻破苹果5年打造的Mac安全壁垒

CVPR 2026 | 从视觉Token内在变化量出发，实现VLM无损加速1.87倍

活久见，时代少年团给大模型上了一课

19岁，常青藤辍学，这群中国年轻人重构了AI记忆

30B参数超越GPT-5！REDSearcher让深度搜索Agent做到低成本可扩展