多 Agent 治理與監督模式 — 從新加坡 MGF 到生產級安全架構

多 Agent 治理與監督模式深度研究

重要性:5/5 — 直接影響安全架構決策


研究動機

多 agent 系統的治理不同於單 agent。當多個 agent 互相委派任務時,一個 agent 的缺陷可能透過信任鏈擴散到整個系統(McKinsey 稱之為「鏈式漏洞」)。我們需要了解業界如何解決這個問題。


1. 政府級治理框架

新加坡 MGF for Agentic AI(2026/1/22)

全球首個政府級 Agentic AI 治理框架,四個核心維度:

  1. 預先評估與限制風險 — 識別錯誤行動、未授權行動、資料洩露
  2. 讓人類有意義地負責 — 可追蹤的責任鏈
  3. 實施技術控制與流程 — 執行時 guardrails、日誌、異常偵測
  4. 賦予終端用戶責任 — 用戶理解 agent 的能力邊界

企業界共識

  • 75% 企業領導者將安全、合規、可審計列為 agent 部署最關鍵需求(IBM)
  • 80% 組織已遭遇風險 agent 行為(McKinsey)
  • 「將 agent 視為數位內部人員」— 全面風險評估 + 最小權限 + 異常監控

2. RBAC 對 AI Agent 不夠用

Oso 的分析

傳統 RBAC 三個致命缺陷:

  1. 無人類判斷的過度授權 — Agent「會無情地用盡所有可用權限」
  2. 角色爆炸 — Agent 任務太具體、太臨時,靜態角色不適用
  3. 機器速度傷害放大 — 「同權限的 AI 可以在幾秒內犯下一年份的錯誤」

業界新方向:動態授權

傳統 RBAC 新方向
靜態角色 Task-scoped 最小權限
一次授權 即時上下文評估
事後審計 持續監控
手動撤銷 即時遏制

學術分類法:五軸設計

arXiv 2025 論文提出 HMAS 權限設計五個軸:控制階層、資訊流、角色委派、時間階層、通訊拓撲。關鍵協調機制:Contract Net Protocol、Auctions、Consensus、Feudal Hierarchies。


3. 生產級系統架構

Cursor 2.0

最詳細的公開多 agent 案例:

  • 最多 8 個並行 agent,各自在隔離 VM + git worktree 中
  • 專門角色:Architect → Planner → Implementation
  • Context compaction:只保留下一步需要的上下文
  • Router 根據請求複雜度動態選擇模型

Claude Code Agent Teams

與我們最相關的參考架構:

  • Lead + Teammates + Shared Task List + Mailbox
  • 任務認領使用檔案鎖防止競態
  • 計畫審批閘門:Lead 審核 teammate 計畫
  • 品質 hooks:TeammateIdle + TaskCompleted
  • 無巢狀團隊,權限繼承自 Lead

Devin 2.0

  • 隔離 VM(瀏覽器、IDE、CLI)
  • 互動式規劃(agent 呈現計畫供審查)
  • 協作優先(人類可觀察、介入、編輯 agent 工作)

4. 安全與監督

三柱模型(arXiv:2601.06223)

  1. 透明性 — agent 生命週期可見
  2. 問責性 — 決策可歸因、可解釋
  3. 可信賴性 — 人類監督 + 回退保障

分級自主進展

等級 描述 條件
Level 1 輔助 — 人類指導 預設
Level 2 協作 — 共擔責任 需驗證
Level 3 監督式自主 — 獨立+審查 需實證
Level 4 完全自主 — 可審計框架 需完整驗證

McKinsey 鏈式漏洞

多 agent 最大風險:一個 agent 的缺陷透過任務委派鏈擴散。

  • 跨 agent 任務升級:有問題的 agent 利用信任關係獲取未授權權限
  • 70% 組織試行 agent,但只有 20% 有穩健安全措施
  • 核心防禦:Inter-agent output validation — 下游 agent 先驗證上游輸出的 schema

漸進式回應

最佳實踐不是 binary stop,而是分級:

1
warn → throttle → pause → stop

每級有不同的閾值和恢復路徑。信心閾值建議:常規 80-90%、金融 90-95%、安全關鍵 95%+。


5. 對我們的評估

已做到(業界驗證)

模式 對標 狀態
observer/executor/guardian RBAC + 關注點分離 超前多數
Approval server + Telegram 非同步 HITL 符合最佳實踐
Circuit breaker (3/6h) Circuit Breaker 標準
Per-agent 日預算 Budget guardrails 關鍵
Merkle 審計鏈 不可篡改審計 超越業界

六項高價值改善

# 改善 努力 價值
1 Task-Scoped Permission — 按任務收窄權限
2 Structured Output Schema — zod schema
3 Inter-Agent Output Validation
4 Simple Checkpointing
5 Graduated Response — warn→throttle→pause→stop
6 Blackboard Pattern — 共享知識庫

不該做的

  • Temporal/Prefect 企業級編排器(超出規模)
  • A2A 跨組織協議(我們有 agent-bus)
  • 動態角色湧現(需大規模訓練)
  • Market-based 任務分配(11 agent 不需要拍賣)
  • 巢狀團隊(一層階層足夠)

Sources


報告由探索者 agent 生成 | 2026-02-21