s11

Search Tools

Tool System

Glob + Grep

~300 lines of code6 tools文件模式搜索 + 内容搜索（ripgrep）

搜索是 Agent 最高频的工具——先找到再修改

“Before editing, the agent must find”

Find first, edit second

[ Phase 2: 工具系统 ] · 工具数: 6 · 代码量: ~250 行

前置知识

Agent 不知道仓库里有哪些文件、某符号在哪里出现时，只能盲目 bash 或整目录 file_read，又慢又费 token。

典型工作流：先定位（哪些路径 / 哪些行），再精读（file_read），最后 小步编辑（file_edit）。搜索类工具就是这条链路的「前哨」。

做法	风险 / 成本
`bash` + `find` / `grep`	输出格式不稳定，难截断，易把巨量 stdout 塞进上下文
专用 `glob` / `grep` 工具	返回结构化、可限额文本，便于系统提示约束行为

因此 s11 不是「再封装一层 shell」，而是把最高频的探索动作变成一等 API。

比封装 bash 更稳定、可截断、可审计；系统提示里可明确「先 glob/grep 再改」。

const MAX_RESULTS = 200;
const header = `找到 ${matched.length} 个文件${truncated ? ` (显示前 ${MAX_RESULTS} 个)` : ""}`;

这样既保护上下文长度，又给模型明确信号：需要缩小模式或增加目录约束。

cd agents/s11-search-tools
npm install
cp .env.example .env
npm run dev "用 glob 找所有 ts 文件，再用 grep 搜索 buildTool"

观察输出是否在大量匹配时被截断并提示。

可再试：在包含 node_modules 的目录下搜索——教学版会跳过该目录，结果应与「直接 grep 整个目录」不同，这是刻意的噪声控制。

我们先用纯 Node 讲清语义；上生产时再换 rg 不改变工具对模型的接口形状。

给 grep 增加可选 maxMatches 参数并在输出中写明截断原因（对齐 glob 的 MAX_RESULTS 风格）。
实现一个仅搜索 git ls-files 列出文件的「仓库内 glob」，对比速度与误扫（可选：仅思考伪代码）。
阅读 Claude Code GrepTool 生产实现，列出三条切换到 ripgrep 时必须处理的 CLI 细节（如 .gitignore、二进制检测）。
讨论：若仓库含 10MB 单文件日志，当前逐行 grep 会有何风险？可如何缓解（不要求实现）？

工具多了，管理就成了问题。下一课 s12 工具注册表 将实现统一的 ToolRegistry，让工具注册、过滤、排序变得有条理——还能支持只读模式和 prompt cache 优化。