← 返回文章列表
技術 6 min read

打造 AI Agent Skills 框架 — 收斂審查

14 個 Skills 長大之後怎麼做系統性治理?47 項發現、三階段收斂、術語統一的實踐紀錄


三週密集開發之後,我停了下來。

不是沒事做。是意識到一個問題:14 個 Skills 個別品質都還行,但放在一起看,全局一致性正在劣化。

同一個概念在不同 Skill 裡有不同的描述。同一份 API 參考被複製了 7 次。同一個術語經歷了三代命名,但舊名稱還殘留在各處。

一個個 Skill 單獨看沒毛病。但生態系整體在累積技術債。

10 天的沉默

這裡有一個有趣的節奏。在收斂審查之前,開發進入了 10 天的沉默期——沒有任何 commit。

不是刻意安排的。就是工作上有其他事情,暫時放下了框架的開發。

但回頭看,這 10 天的沉默反而是關鍵的。密集開發時,你看到的是每個 Skill 的局部問題。停下來一段時間之後再回來,看到的是全局的系統性問題。

視角從「這個 Skill 還缺什麼」轉變成了「這 14 個 Skill 作為一個整體,有什麼問題」。

47 項發現

帶著全局視角,我做了一次全量審查——14 個 Skills,逐一過一遍。

47 項發現。按嚴重度分成四級:

嚴重度數量典型問題
Critical5無效引用、邊界模糊、命名衝突
High12知識重複、缺失段落
Medium18精簡機會、冗餘內容
Low12表述細節、格式不一致

最關鍵的發現是:4 個 Skills 的「領域知識」佔比超過了 45%。

這意味著 Gotchas Only 原則——Skill 只放坑點和決策,領域知識放到 Docs——沒有被徹底執行。事件規格、API 參數、元件細節,這些應該在 Docs 裡的東西,仍然散落在 Skills 裡。

同時,7 個知識點被複製到了多個 Skill 中。每份複本的措辭略有不同,AI 遇到矛盾時就會困惑。

三階段收斂

47 項不可能一次全改。一次改太多,回歸測試會爆炸——你無法分辨新出現的問題是哪次修改造成的。

分三個階段:

Phase 1:Critical + Quick Wins。 先處理無效引用(指向不存在的檔案路徑)和空殼檔案。這些改動風險低、影響明確。淨減 65 行。

Phase 2:Token 效率。 把 7 個重複的知識點統一到 Docs,Skills 裡只留引用。最大的一次改動是把分散在 4 個 Skills 裡的 API 參數表,合併到前端知識庫的一個章節裡。淨減 160 行。

Phase 3:品質強化。 補齊遺漏的邊界案例、強化驗證 checkpoint、完善反向引用。這個階段反而增加了 50 行——但增加的都是品質增量。

為什麼先做 Critical + Quick Wins?

因為前兩類改動的因果關係最清楚。無效引用刪掉就是刪掉,不會有副作用。重複知識統一到 Docs,邏輯也很明確。先處理這些,把「確定能改好」的東西清掉,剩下的再慢慢處理。

回歸測試的角色

每個 Phase 完成後,跑一輪回歸測試。

Phase 2 之後的回歸結果:12/13 通過,1 個缺口。

那個缺口是什麼?一個版型的事件清單裡,有兩個事件在瘦身過程中被意外移除了。回歸測試生成的程式碼缺少了這兩個事件的處理邏輯。

補回來,重新跑,13/13 通過。

如果沒有回歸測試,這個缺口可能要等到真實的使用場景中才會被發現。瘦身 Skills 和瘦身程式碼一樣——你以為是刪冗餘,實際上可能刪到了有用的東西。回歸測試是安全網。

術語統一:三代命名的混亂

收斂審查中最耗時的一項工作是術語統一。

框架裡有一套規格書模板系統,用來把人類撰寫的需求規格轉換成 AI 可消費的結構化格式。這套系統在開發過程中經歷了三代命名:

第一代:用層級編號——L0、L0.5、L1、L2、L3。很精確,但沒有語意——看到「L2」你不知道是什麼。

第二代:簡化成兩個階段——G0(初始格式)和 G2(結構化格式)+ HWS(人類可撰寫規格書)。好一些,但 G0/G2 和 HWS 的關係不清楚。

第三代:從流程角度重新命名——舊格式 → HWS(Human-Writable Spec)→ AIS(AI-Structured Spec)。每個名稱對應規格書在流程中的一個階段,語意清晰。

問題是三代命名在文件中混合存在。同一份規格書模板,在 Skill A 裡叫「L2」,在 Skill B 裡叫「G2」,在 Docs 裡叫「AIS」。

統一涉及 16 個檔案、70 多處修正、8 個 commits。

這個工作機械、枯燥,但極其必要。術語不統一,AI 的理解就不統一。你叫它「用 L2 格式」,它不確定你說的是 G2 還是 AIS——因為它在不同的文件裡看到過不同的名稱指向同一個東西。

收斂審查的時機

什麼時候該做收斂審查?

不是每次改 Skill 之後。那太頻繁了。

我的經驗是兩個信號:

信號一:密集開發期結束後。 連續多天高強度新增或修改 Skills,然後進入一段相對平靜的時期。這時候是做全局審查的好時機——你對細節還有記憶,但已經脫離了「衝刺模式」的慣性。

信號二:跨 Skill 的 bug 出現。 如果一個問題的根因跨越了兩個以上的 Skill(例如:A Skill 的引用指向 B Skill 已經刪除的段落),代表生態系的一致性在劣化。

收斂審查不是日常維護——它是一個有計畫的、系統性的全量 review。14 個 Skills、所有 Docs、所有交叉引用,一次看完。

花時間,但效果是累積的。做完一次之後,框架的內聚度明顯提升,後續的維護成本降低。


本文是「打造 AI Agent Skills 框架」系列的第 11/13 篇

← 上一篇:回歸測試與驗證閘門 → 下一篇:從個人工具到團隊基建

📚 回到系列目錄