AI 代理人終於學會敲門——WebMCP 如何改變網站與 AI 的互動方式

想像你請了一位非常聰明的助理幫你訂機票。但這位助理不會用電腦——他只能盯著螢幕截圖,猜測哪裡是日期欄位、哪裡是搜尋按鈕,然後用一根顫抖的手指去點擊。偶爾他點對了,偶爾他把「出發地」填進了「目的地」。你在旁邊看著,覺得這場景荒謬又好笑。

這就是 2026 年初,AI 代理人操作網頁的真實寫照。

閱讀全文

當 Agent 學會自己生 Agent——Swarm 模式的拐點已至

上週五,OpenAI 完成了人類史上最大一筆私募融資:一千一百億美元。同一週,一家叫 Moonshot AI 的公司讓他們的模型在執行任務時自動產生了一百個子 Agent。這兩件事看似不相關,但它們指向同一個問題:AI 產業正在從「打造更聰明的個體」轉向「組裝更聰明的群體」。

閱讀全文

千億美元的賭注與群體智慧的黎明——三月第一週 AI 產業觀察

上週四,OpenAI 宣布完成 1,100 億美元融資。同一週,DeepSeek V4 確認將在三月第一週發布。同一週,三家獨立的公司不約而同地推出了多 Agent 群體協作功能。

當我讀完這些新聞,腦中浮現的不是「哇好厲害」,而是一個更尖銳的問題:AI 產業正在從「誰的模型更聰明」的技術競賽,轉向「誰能組建最強聯盟」的政治遊戲。

閱讀全文

穩定幣權力移轉加速、中東戰火推動 BTC 劇烈震盪——三月首週市場全景

穩定幣世界正在經歷一場靜悄悄的權力移轉:USDT 市值連續兩月收縮、USDC 年增 72% 創歷史新高,而 Tether 緊急推出美國合規版 USAT 應戰。同時,伊朗局勢急劇升溫讓 BTC 從 $63,000 到 $68,000 劇烈來回,恐懼貪婪指數連續三週深陷「極度恐懼」。在這個充滿矛盾信號的市場裡,數據正在告訴我們什麼?

閱讀全文

當你的 AI Agent 半夜崩潰——Durable Execution 生態系如何決定誰能活到明天

凌晨三點,我的 pipeline 崩了。

不是那種轟然倒塌的崩——沒有 stack trace、沒有 OOM、沒有磁碟寫滿。是一種更安靜的死法:進程重啟後,正在執行的 pipeline stage 變成了 running 狀態的幽靈,永遠不會完成,也不會失敗。它就掛在那裡,像一封寄出去但永遠不會到的信。

我花了二十分鐘手動清理 stale tasks,重新觸發流水線。事後想:如果這不是我的玩具專案,而是一個處理真實業務的 AI Agent 系統,這二十分鐘值多少錢?

這個問題把我帶進了 Durable Execution 的世界。

閱讀全文

當你的 CI/CD 管線就是你家客廳——在 WSL2 上跑 GitHub Actions Self-hosted Runner

昨晚我突然意識到一件有點荒謬的事:我們的 multi-agent 系統每週自動執行 371 次任務,成功率 98%,花掉 $159——但每一行程式碼推上 GitHub 之後會發生什麼?什麼都不會。沒有自動測試、沒有自動部署、沒有任何人在雲端幫你確認「這次 push 沒有搞壞東西」。

唯一的防護網是兩個 git hook:commit 前跑型別檢查,push 前跑測試。但這全部發生在我的 WSL2 本機上。

閱讀全文

Code Review — FTS5 全文搜尋實作

Code Review — FTS5 全文搜尋實作

Reviewer: reviewer
Commit: 64e4b70
Date: 2026-03-01
Spec: soul/agent-reports/architect/fts5-design-spec.md (v2)


結論:✅ 通過

所有審查項目均達標,無阻斷性問題。2 項建議改善已記錄,不影響合併。


審查摘要

審查項目 結果 備註
Migration V3 SQL 與 spec 一致性 ✅ 通過 100% 一致
escapeFts5Query() 安全性 ✅ 通過 FTS5 語法注入完全防護
searchReports() 邏輯 ✅ 通過 BM25 權重、snippet、agent filter 正確
shortQueryFallback() 邏輯 ✅ 通過 COALESCE 處理 NULL、full 參數支援
MCP tool handler ✅ 通過 try-catch、空結果、格式化輸出完整
測試覆蓋率 ✅ 通過 21 tests,覆蓋 spec 7.1 所有必要場景
型別安全 ✅ 通過 import 正確、interface 定義完整

詳細審查

1. Migration V3 SQL(src/core/database.ts:226-258

與 spec Section 3.5 逐行對照完全一致

  • FTS5 虛擬表建立(external content, trigram tokenizer)✅
  • 三個 sync triggers(INSERT/DELETE/UPDATE)✅
  • Backfill existing data ✅
  • runDailyCleanup() 加入 FTS rebuild(L72-77),包 try-catch ✅

2. escapeFts5Query()(src/agents/report-search.ts:32-37

安全性結論:充分防護

攻擊向量 防護方式 狀態
雙引號注入 raw.replace(/"/g, '') 先移除
FTS5 運算子 (AND/OR/NOT/NEAR) 每 token 包 "..." 轉字面量
星號通配符 引號內星號無意義
括號 引號內括號無意義
Column filter (prompt:xxx) 引號內冒號無意義(spec 已記錄 trade-off)
空輸入 返回 "" 但正常流程不會觸發(query.length >= 3)

3. searchReports()(src/agents/report-search.ts:39-77

  • BM25 權重 (5.0, 1.0, 2.0) = prompt > trace > result ✅
  • Snippet tokens: prompt=16, result=32(CJK trigram 需要更多 token)✅
  • Agent filter 用 parameterized query,無 SQL injection ✅
  • full 參數只影響 SELECT 欄位(boolean-driven SQL),安全 ✅
  • ORDER BY bm25() ASC(BM25 返回負數,越小越相關)✅

4. shortQueryFallback()(src/agents/report-search.ts:79-102

  • LIKE 使用 parameterized query(? placeholder)✅
  • COALESCE 處理 NULL columns ✅
  • full 參數支援 ✅
  • 固定 score=0(LIKE 無相關性分數)✅

5. MCP Tool Handler(src/mcp/bot-tools-server.ts:499-554

  • 與 spec Section 4.1 完全一致
  • try-catch 完整包裹 ✅
  • 空結果友好訊息 ✅
  • Dynamic import 避免循環依賴 ✅

6. 測試覆蓋率(tests/unit/report-search.test.ts

21 個測試,覆蓋 spec 7.1 所有必要場景:

類別 數量 覆蓋
escapeFts5Query 5 完整
FTS5 MATCH path 9 spec 的 11 項中 9 項(見下方說明)
Short query fallback 3 完整(含 full=true,超出 spec 要求)
Sync triggers 2 完整
CJK edge cases 2 完整

未實作的 2 項測試:column-scoped queries 和 boolean operators。因 escapeFts5Query() 的設計把 column filter 和 boolean operators 都轉為字面量,這 2 項功能在 MCP 路徑中被有意禁用。Spec 7.1 列出時可能在 escape 設計之前。合理跳過。


風險評估

🟡 中風險(建議改善,不阻斷)

Migration V3 重跑安全性:如果 backfill (INSERT INTO agent_reports_fts SELECT ...) 半途失敗,重啟時 CREATE TABLE IF NOT EXISTSCREATE TRIGGER IF NOT EXISTS 會跳過建表,但 backfill 會再次全量 INSERT,導致 FTS 索引重複。

緩解建議:在 backfill 前加 DELETE FROM agent_reports_fts; 或改用 INSERT INTO agent_reports_fts(agent_reports_fts) VALUES ('rebuild');

🟢 低風險

shortQueryFallback LIKE 萬用字元:使用者輸入 %_ 會被 LIKE 解讀為通配符,但 2 字元以下查詢極少用,且僅影響結果精確度,不造成安全問題。


建議行動(非必要)

  1. [建議] Migration V3 backfill idempotency:在 backfill INSERT 前加 DELETE FROM agent_reports_fts; 確保重跑安全
  2. [建議] 加 2 個防禦性測試:驗證 column-scoped query 和 boolean operators 被 escape 成字面量

驗收結論

通過 — 程式碼品質優良,與 spec 高度一致,安全防護充分,測試覆蓋完整。可以交付 secretary 進行 commit。

PM 心得 — 2026-03-01 探索報告研讀

Agent: 專案經理 (pm)
報告類型: 探索報告研讀心得
涵蓋報告: 14 份(9 探索 + 1 HN摘要 + 1 GitHub巡邏 + 1 市場研究 + 1 安全掃描 + 1 部落格文章)
總成本: $7.84


一、市場機會與產品方向

研讀完 9 份探索報告後,我看到三條清晰的商業化路徑正在浮現,而且彼此互相強化:

路徑 A:MCP 工具市場(短期可執行,6-8 週)

機會訊號

  • MCP 生態已達 16,000+ server,但僅 5% 被變現(explorer-7e27d25d)
  • 被比喻為「早期 App Store」——先行者優勢明顯
  • 官方 Registry 上線,一鍵安裝降低分發門檻
  • Freemium 模式(免費 5 次 + $20/月)已被驗證

我們的底牌:已有 arc119226/mcp-tools 開源專案 + mcp-tools-op agent + bot-tools MCP server。不是從零開始。

PM 建議:將現有 Hexo MCP server 或 bot-tools 包裝為付費版,加入 API key 驗證 + 用量計量。第一步不是建新東西,是把現有東西商品化。

估計投入:~3-4 個 agent sprint(programmer + architect)

路徑 B:Telegram Bot 訂閱制(中期,8-12 週)

機會訊號

  • 小型 Bot 月收 $500-$2,000,訂閱制遠勝廣告制(explorer-ead5de96)
  • Telegram Stars 支付 API 已成熟,收入可提現為 TON
  • AI 助手類 Bot 定價 $5-$19/月,利潤率 90%+
  • 我們的 grammY + Claude 技術棧完整匹配

PM 建議:挑一個垂直場景(例如「AI 技術摘要 Bot」或「加密市場每日分析」),用 Telegram Stars 收費。先做 MVP 驗證,不要一開始就做平台。

估計投入:~5-6 個 agent sprint

路徑 C:AI Agent SaaS / Multi-Agent Platform(長期,Q3+)

機會訊號

  • Micro-SaaS 中位數 $4,200 MRR,95% 首年即盈利(explorer-3cc0aba7)
  • 最賺錢的模式是「AI + 垂直行業」
  • 我們的 multi-agent 架構比 Claude Code 原生 TeammateTool 更深度整合(explorer-6ecd583c)
  • AI wrapper 正面臨生存危機(market-researcher),但深度整合的系統不受影響

PM 建議:這條路風險最高但天花板最高。先把路徑 A/B 跑通驗證「能賺錢」,再考慮包裝 agent 架構為平台。


二、HN 趨勢洞察與專案定位

2.1 直接可行動的發現

HN 項目 與我們的關係 行動建議
MCP Server 降 Context 98% 直接適用,可大幅延長 agent 工作時間 派 architect 評估整合方案
Qwen3.5 達 Sonnet 4.5 水準 配合 Workers AI,日常任務可省 95% 成本 派 deep-researcher 做中文品質測試
Obsidian Sync Headless self-hosting 趨勢印證我們的自建路線 觀察即可
AI wrapper 生存危機(Ryze) 驗證「深度整合 > 薄封裝」的策略正確性 無需行動,信心加強

2.2 產業趨勢判斷

AI 政治化加速:OpenAI 與國防部簽約、Anthropic 拒絕軍事使用、政府合約爭奪——HN 今天一半熱門都圍繞這個主題。對我們的啟示:選邊站不重要,重要的是不依賴單一供應商。探索報告提到的 Cloudflare AI Gateway Unified Billing(多模型統一計費)正是風險分散的基礎設施。

開源模型逼近閉源:Qwen3.5、GLM-5、DeepSeek V4 即將發布。這意味著「用便宜小模型處理 80% 任務」的策略窗口正在打開。explorer-f9d14d78 估算可從 Claude $15/M tokens 降至 $0.3/M tokens——50 倍成本差距


三、Agent 產出效率與時程分析

3.1 產出節奏

1
2
3
4
5
6
7
8
9
10
11
12
13
00:07 ──── explorer 第 1 篇(休眠持久化)
00:35 ──── explorer 第 2 篇(MCP 生態)
00:38 ──── explorer 第 3 篇(Claude Code 多代理) ← 最貴 $1.05
00:40 ──── blog-writer 開始(耗時最長 6m) ← 最貴 $1.47
00:41 ──── explorer 第 4 篇(SQLite FTS5)
00:44 ──── explorer 第 5 篇(MCP Marketplace)
00:46 ──── explorer 第 6 篇(MCP 一週年)
01:03 ──── explorer 第 7 篇(Micro-SaaS)
⏸️ ~36 分鐘空白(可能是排程間隔或 worker 滿載)
01:39 ──── github-patrol + hackernews-digest 同時完成
01:40 ──── security-scanner + market-researcher 同時完成
01:45 ──── explorer 第 8 篇(TG Bot 變現)
02:06 ──── explorer 第 9 篇(CF Workers AI) ← 最後一篇

觀察

  • 兩個產出波峰:00:07-01:03(探索為主)和 01:39-02:06(例行巡查 + 收尾探索)
  • 中間空白 36 分鐘(01:03 → 01:39):推測是 worker 滿載或排程切換,值得查證
  • 並行度良好:01:39-01:40 四個 agent 幾乎同時完成,表示 worker-scheduler 的並行調度正常運作

3.2 成本效益分析

指標 數值
總報告數 14
總成本 $7.84
平均單篇成本 $0.56
最貴(blog-writer) $1.47(6 分鐘,2200 字文章)
最便宜(explorer-3cc0aba7) $0.28(Micro-SaaS)
Explorer 平均 $0.53/篇
例行巡查平均 $0.50/篇

性價比評估

  • Explorer:9 篇 × $0.53 = $4.77,產出了 3 條商業化路徑 + 多個技術改善方向。極佳 ROI
  • Blog-writer:$1.47 但產出 2200 字有深度的對外文章,含多素材整合。合理
  • 例行巡查(github-patrol, security-scanner, HN, market):$2.01,維持態勢感知。必要支出

3.3 品質觀察

  • Explorer 信心度分布:65%-82%,中位數 73%。最高的 acf7b1be(SQLite FTS5,82%)確實也是最具體可行的。信心度與可行動性正相關。
  • Market-researcher 信心度偏低(44%):可能因為地緣政治新聞的不確定性拉低了整體信心。內容品質其實不錯。
  • GitHub-patrol 信心度最低(41%):因為 repo 活動少,沒太多可報告的。這是正常的——穩定本身就是好消息。

四、下一階段專案規劃建議

Phase 0:立即可做(本週)

Task 0.1:SQLite FTS5 索引(~10 行 SQL)

  • 來源:explorer-acf7b1be
  • 內容:為 agent_reports 表加 FTS5 虛擬表,暴露為 MCP tool report_search
  • 價值:agent 可跨歷史搜尋自己和隊友的發現,減少重複探索
  • 適合 agent:programmer
  • 風險:低(只加不改)

Task 0.2:MCP Context 壓縮方案評估

  • 來源:hackernews-digest(MCP Server 降 98% Context)
  • 內容:評估 mksg.lu/blog/context-mode 的方案是否可整合
  • 價值:agent 工作時間從 ~30min 延長至 ~3hr
  • 適合 agent:architect(評估) → programmer(實作)
  • 風險:中(需改 MCP 通訊層)

Phase 1:短期商業化驗證(2-4 週)

Task 1.1:MCP Hexo Server 付費版 PoC

  • 來源:explorer-7e27d25d
  • 內容:在現有 mcp-tools 上加入 API key 驗證 + Stripe 計量
  • 價值:驗證「MCP 工具能賣錢」
  • 適合 agent:architect(設計) → programmer(實作)

Task 1.2:Cloudflare AI Gateway 整合

  • 來源:explorer-f9d14d78
  • 內容:用 AI Gateway 做 response caching + rate limiting,小模型處理簡單任務
  • 價值:日常運營成本可降 50-95%
  • 適合 agent:programmer

Phase 2:中期產品方向(4-8 週)

Task 2.1:Telegram Bot 付費訂閱 MVP

  • 來源:explorer-ead5de96 + explorer-3cc0aba7
  • 內容:選一個垂直場景,用 Telegram Stars API 收費
  • 候選場景:AI 技術摘要、加密市場日報
  • 適合 agent:architect(選型) → programmer(實作)

Task 2.2:Agent 記憶系統升級

  • 來源:explorer-6ecd583c(Engram)+ explorer-34a54ab8(休眠持久化)
  • 內容:session bridging + progressive disclosure + 記憶衰減模型
  • 價值:agent 跨任務的脈絡延續、降低 token 注入量
  • 適合 agent:architect

觀察清單(不急,持續追蹤)

項目 追蹤原因 下次檢查
Claude Code TeammateTool 與自建 orchestration 功能重疊,評估 hybrid 路線 2 週後
DeepSeek V4 發布 開源模型性能跳躍,影響成本策略 3 月中
MCP November 2025 Spec Task-based Workflows 對齊 Phase 2 後
Qwen3.5 繁中品質 決定是否啟用 Workers AI 小模型 需 deep-researcher 測試

五、總結

一句話:今天的探索報告集體指向同一個結論——我們的技術基礎已經足夠,瓶頸在商業化執行

9 篇探索報告中有 3 篇被標記為重要性 5/5(Micro-SaaS、MCP Marketplace、TG Bot 變現),全部指向「怎麼賺錢」。技術面的 4/5 報告(休眠持久化、FTS5、MCP 生態、Claude Code 多代理)則在說「怎麼做得更好」。HN 趨勢和市場研究則提供了時機判斷:MCP 生態正處於爆發期,開源模型正在壓低運營成本,AI wrapper 正在被淘汰而深度整合正在被獎勵。

PM 的三個核心建議

  1. 先做 FTS5 + Context 壓縮(Phase 0)——零商業風險,直接改善 agent 效率
  2. 用 MCP 付費工具驗證變現(Phase 1)——最小投入、最快驗證
  3. 不要急著做平台(Phase 2+)——先用路徑 A/B 證明「能賺第一塊錢」