RAG 不是建完就結束——上線後的維運才是成敗關鍵。這篇是一份可直接套用的 RAG 維運 SOP。
每日例行(5 分鐘)
- 檢查監控告警:latency、error rate、API quota
- 瀏覽昨日「👎」對話 Top 10
- 檢查向量庫健康(Qdrant dashboard)
每週檢視(30 分鐘)
- 跑 30 題標準測試集,看分數變化
- 檢視「未命中問題」清單,找出文件缺口
- 整理用戶反饋給內容窗口
每月作業(2 小時)
- 跑完整 Ragas 評估(faithfulness, recall, relevance)
- 對比 KPI 與目標
- 更新文件清單(新增、退役)
- 檢視成本:API、向量庫、儲存
每季作業(半天)
- 檢討整體效能趨勢
- 評估是否該升級 Embedding / LLM 模型
- 用戶滿意度調查(NPS)
- 內容團隊回報「最常問但 AI 答不好」的問題
每年大檢修(1 週)
- 全量 re-embedding(如果模型升級)
- chunking 策略重新評估
- 權限與安全稽核
- 歸檔超過 N 年的舊文件
文件更新流程(SOP)
- 文件擁有者上傳新版本到指定資料夾
- 系統自動觸發 re-embed 任務
- 新版本進入「pending」狀態(暫不上線)
- 內容窗口跑 5–10 題驗證
- 驗證通過後切換到「active」
- 舊版本保留但 active=false
事故處理
三類常見事故:
1. AI 回答錯誤(被用戶舉報)
- 立即截圖 + 對話 ID
- 查 retrieved 切片是否正確
- 若是 retrieval 問題 → 調整 chunking / 加文件
- 若是 generation 問題 → 加強 Prompt
- 標記為「已修復」並驗證
2. 系統當機
- 顯示維護頁,預設回覆「請聯絡客服」
- 檢查向量庫、API、網路
- 找出 root cause
- 事後檢討(Postmortem)
3. 資料外洩
- 立即關閉系統(避免擴大)
- 檢查 audit log 找出範圍
- 通知資安主管 / 法務
- 72 小時內依個資法規定處理
容量規劃
| 規模 | 向量庫容量 | 月 API 成本 |
|---|---|---|
| 10 萬切片 | 1GB | NT$3–10K |
| 100 萬切片 | 10GB | NT$15–50K |
| 1,000 萬切片 | 100GB | NT$80–250K |
備份策略
- 原始文件:每日備份到雲端 + 冷儲存
- 向量庫:每週快照(snapshot)
- 對話歷史:每日匯出到 BigQuery
- 還原測試:每季演練一次
KPI 範本
- Hit Rate:> 85%
- 用戶滿意度:> 80%
- 平均 Latency:< 3s
- 月度未命中問題:< 10%
- 客服轉接率:依產業設目標