Gemini Live 是 Google 在 2024 年下半年推出的即時語音互動 API。讓您能建一個「能聽會說、即時對話」的 AI 客服。這篇是實戰教學。
什麼是 Gemini Live?
傳統的「語音 AI」流程是:語音 → STT 文字 → LLM → TTS 語音,三段串接延遲大、體驗差。
Gemini Live 是原生語音端到端模型:
- 直接接收語音輸入
- 直接輸出語音
- 支援打斷(用戶說話時 AI 會停)
- 能感知情緒(慢、急、生氣)
- 延遲 < 600ms(接近真人對話)
適用場景
- 即時客服電話自動接聽
- 外語會話練習
- 無障礙 UI(視障使用者)
- 駕駛中語音助理
- 醫療診間記錄
不適合的場景
- 正式法律 / 醫療諮詢(必須人工)
- 情緒性客訴(需要真人安撫)
- 網路品質差的環境(會卡)
技術實作
Gemini Live 用 WebSocket 連線,跟一般 REST API 不同。
// JavaScript / Web 端
const session = await client.live.connect({
model: 'gemini-2.5-flash-live',
config: {
responseModalities: ['AUDIO'],
systemInstruction: '你是客服 Andy,回答簡短、友善,必要時轉接人工'
}
});
// 傳送麥克風音訊
session.sendAudio(audioChunk);
// 接收 AI 回應
session.on('audio', (audioData) => {
playAudio(audioData);
});
// 用戶說話時打斷 AI
session.on('userSpeaking', () => {
session.interrupt();
});
整合 LINE
LINE 不支援即時語音 API,所以 Gemini Live 在 LINE 上的應用是「異步」:
- 用戶傳語音訊息
- Webhook 接到 LINE 語音檔
- 用 Gemini Live API 處理 + 生成語音回應
- 用 LINE Messaging API 回傳語音訊息
整合 Web Call Center
正式的客服電話線整合,需要 SIP/RTP 通訊協定:
- 客戶撥打公司客服電話
- PBX 路由到 SIP 閘道(如 Twilio、Vonage)
- 閘道把音訊串流到後端
- 後端橋接 Gemini Live WebSocket
- Gemini Live 回應再串回客戶端
典型部署成本:建置 NT$300K–800K、月維運 NT$30–80K(含 SIP 線路費)。
延遲優化技巧
- 用 Gemini Flash Live 而非 Pro Live
- 限制 System Instruction 長度
- 關閉不需要的 modality(純語音不要回文字)
- 用 PCM 音訊格式(不是 mp3)
- 地理位置靠近 Google 機房(亞洲用 asia-east1)
常見問題
- 聲音不夠擬人?選 Aoede、Charon、Fenrir 等不同語音模型試
- 中文發音怪?2026 中文支援已改善,但情緒詞仍偶有不自然
- 打斷不靈敏?調 VAD(語音活動偵測)門檻
- 成本失控?限制單次對話時長、設立每日上限
注意事項
- 明確告知是 AI:開場白必須說「您好,我是 AI 客服」(避免欺騙)
- 提供轉人工選項:用戶說「轉人工」立即轉
- 錄音通知:依個資法告知對話被錄音
- 緊急情況處理:偵測到關鍵字(自殺、暴力)立即轉真人