Agili 的 Hacker Podcast 封面
Agili 的 Hacker Podcast

Agili 的 Hacker Podcast

关于

一个基于 AI 的 Hacker News 中文播客项目,每天自动抓取 Hacker News 热门文章,通过 AI 生成中文总结并转换为播客内容。

播放

Agili 的 Hacker Podcast 2026-05-18

Agili 的 Hacker Podcast:AI 代码搜索与开源工具新动向

本期精选关注代码搜索工具的效率优化、宇航员真实记录、AI 编程语言的发展,以及一场关于 OpenAI 治理的法律争议。

Semble:面向 AI 代理的代码搜索工具,token 消耗降低 98%

智能裁剪技术

Semble 专为 AI 代理设计,解决了传统 grep 在处理大型代码库时的 token 开销问题。传统搜索需要将完整匹配结果发送给模型,导致大量 token 消耗。Semble 通过智能裁剪技术,只提取最相关的代码片段,而非返回整行匹配内容。

社区验证

有用户实测后确认效果与声称相符。针对"这不就是语义搜索吗"的疑问,作者澄清两者定位不同:语义搜索适合模糊查询,Semble 擅长精确的代码结构搜索。

技术局限

开发者指出词向量召回率是常见瓶颈,对于复杂模式或跨文件引用可能存在遗漏风险。有人建议对标 RIPGrep 这类成熟工具,认为即使省 token 但搜索结果不精确对 agent 帮助有限。也有声音提到结合 AST(抽象语法树)解析可提升精度。


缺少完整内容的文章

以下文章仅提供标题,无法进行详细整理:

  1. It is time to give up the dualism introduced by the debate on consciousness - 缺少文章正文和评论
  2. Ask an Astronaut: 333 hours of Q&A footage with astronauts - 缺少文章正文和评论
  3. Jank now has its own custom IR - 缺少文章正文和评论
  4. Elon Musk has lost his lawsuit against Sam Altman and OpenAI - 缺少文章正文和评论

如需完整整理,请补充这些文章的正文内容和 Hacker News 评论。

播客全文

女:Hello 大家好,欢迎收听 Hacker News 播客,我是小雅。

男:大家好,我是老冯。

女:今天咱们来聊个挺有意思的工具,叫 Semble。老冯,你知道这是什么吗?

男:知道,这是一个专门给 AI 代理用的代码搜索工具。说白了,就是让 AI 在搜索代码的时候少花点 token。官方宣称能减少 98% 的消耗,挺吓人的数字。

女:等等,token 是什么?能让不太懂的朋友先了解一下吗?

男:可以简单理解成 AI 处理文本时的计量单位,就像咱们发短信按字数收费一样。AI 处理的内容越多,消耗的 token 就越多,成本也越高。

女:哦明白了。那为什么传统grep会有那么多开销呢?

男:问题在于 grep 的工作方式。当你在一个大型代码库里搜索时,它会把所有匹配的行都返回给 AI。比如你搜一个函数名,可能匹配到几百处,AI 就得处理这几百行的完整内容。实际上 AI 真正需要的可能就几个关键片段。

女:所以 Semble 的思路是只返回最相关的片段?

男:对,它不是返回整行,而是做智能裁剪。你把它想象成给 AI 配了一个图书管理员,帮你把整本书翻到最相关的那几页,而不是把整本书扔给 AI 让他自己找。

女:这个思路挺清晰的。那社区里大家怎么说?

男:有用户实测后确认确实能省 token。不过也有人提了个好问题:这不就是语义搜索吗?作者专门澄清过,说不是。语义搜索适合模糊查询,比如"找一个登录相关的功能",但 Semble 做的是精确的结构化搜索。

女:一个是模糊匹配,一个是精准定位,各有各的场景。

男:没错。当然社区也提了一些局限性。词向量召回率是个常见瓶颈,简单说就是搜索引擎可能漏掉一些相关结果,特别是跨文件的复杂引用。

女:所以有可能搜了但没搜全?

男:有可能。有人在技术层面建议,如果能结合 AST 解析而不是纯文本匹配,精度会更高。AST 可以理解代码的结构关系,比单纯匹配文字要聪明。

男:还有人拿它对标 RIPGrep,这也是个很实在的建议。毕竟省 token 是好事,但如果搜出来的东西不精准,对 AI 代理的帮助反而有限。

女:说到底是个取舍问题,精度和效率怎么平衡。

男:是这个道理。工具嘛,关键看用在哪。如果你的代码库特别大、对精度要求没那么极端,省 token 带来的成本优势可能很明显。

女:好,今天聊了 Semble 这个工具,核心就是用智能裁剪帮 AI 省 token,和语义搜索是两种思路,但也存在召回率和精度的局限。好啦,今天就到这里,咱们下期见。

男:下期见。提醒一下,如果想随时听到我们的节目,可以用任意泛用型播客客户端订阅,这样就不会错过更新了。

女:对,搜索"Hacker News 播客"就行。拜拜!

参考链接

0:00
0:00
0:00