Gemini API 是按 token 計費,但實際帳單怎麼算?這篇用實例帶您看懂——包含 Free Tier、Context Caching 折扣、Batch 半價的詳細規則。
什麼是 token?
Token 是 AI 模型的計價單位。一個中文字約等於 1.5–2 個 token、一個英文單字約 1 個 token。所以「100 字的繁中段落」≈ 150–200 tokens。
API 同時計 input(你給 AI 的)和 output(AI 給你的)tokens。
2026 完整報價表
| 模型 | Input | Output | Cache 折扣 | Batch 折扣 |
|---|---|---|---|---|
| Gemini 2.5 Pro | $1.25/M | $10/M | -75% | -50% |
| Gemini 2.5 Flash | $0.075/M | $0.30/M | -75% | -50% |
| Flash-Lite | $0.025/M | $0.10/M | -75% | -50% |
單位:每百萬 tokens(M = Million)
Free Tier 額度
| 模型 | RPM | 每日請求 | 限制 |
|---|---|---|---|
| Pro | 5 | 50 | 個人開發測試 |
| Flash | 15 | 1,500 | 實際可上線小應用 |
| Flash-Lite | 30 | 1,500 | 大量輕量任務 |
實例 1:客服 Bot 月成本
假設條件
- 月對話量:2,000 次
- 每次對話 input 平均 800 tokens(系統指令 + 對話歷史)
- 每次對話 output 平均 200 tokens
- 使用 Gemini 2.5 Flash
計算
Input:2,000 × 800 = 1.6M tokens × $0.075 = $0.12
Output:2,000 × 200 = 0.4M × $0.30 = $0.12
月成本:約 $0.24 美元(不到 NT$10)
實例 2:每天讀 10 份 50 頁報告
假設條件
- 每份報告 50 頁 ≈ 50,000 tokens
- 每天讀 10 份、每份 output 摘要 1,000 tokens
- 使用 Gemini 2.5 Pro
計算(無 Cache)
Input:10 × 50,000 × 30 天 = 15M × $1.25 = $18.75
Output:10 × 1,000 × 30 = 0.3M × $10 = $3
月成本:約 $21.75(NT$650)
Context Caching 怎麼用
當您的請求中有大量「重複的 context」(公司知識庫、長文件、固定指令),Context Caching 可以省 75%。
使用條件:
- Cache 內容至少 4,096 tokens
- 儲存費用:$0.31/M tokens 每小時
- 命中讀取:原價的 25%
適合場景:
- 固定的大型公司知識庫
- 多用戶共用的長系統 Prompt
- 每次請求都附帶相同附件
Batch Mode 半價
不急著馬上回應的任務(每日報告、夜間分析)可以用 Batch Mode,費用打 5 折。提交後 24 小時內處理完。
適合場景:
- 大量文件批次摘要
- 夜間自動化任務
- 不影響用戶體驗的後台運算
付費計畫升級
| Tier | 條件 | RPM 上限 |
|---|---|---|
| Free | 無 | 低 |
| Tier 1 | 帳號累積消費 $0+ | 較高 |
| Tier 2 | 累積 $250+ | 更高 |
| Tier 3 | 累積 $1,000+ | 最高 |
實用省錢技巧
- Flash 為主、Pro 為輔:80% 任務用 Flash 就夠
- 開 Context Caching:固定系統 Prompt 一定要 cache
- 降低 max_output_tokens:避免 AI 太囉嗦
- 結構化輸出(JSON):比自然文字短
- 非即時任務用 Batch:直接省一半