— PILLAR 02 · Google AI Studio & Gemini

Gemini Live 語音互動實戰:建一個會聽會說的客服

Latency 與品質的權衡、整合 Line 與 Web、實際代碼範例。

PUBLISHED
2026-05-24
READ TIME
10 min
WORD COUNT
2500 字
CATEGORY
PILLAR 02

Gemini Live 是 Google 在 2024 年下半年推出的即時語音互動 API。讓您能建一個「能聽會說、即時對話」的 AI 客服。這篇是實戰教學。

什麼是 Gemini Live?

傳統的「語音 AI」流程是:語音 → STT 文字 → LLM → TTS 語音,三段串接延遲大、體驗差。

Gemini Live 是原生語音端到端模型:

  • 直接接收語音輸入
  • 直接輸出語音
  • 支援打斷(用戶說話時 AI 會停)
  • 能感知情緒(慢、急、生氣)
  • 延遲 < 600ms(接近真人對話)

適用場景

  • 即時客服電話自動接聽
  • 外語會話練習
  • 無障礙 UI(視障使用者)
  • 駕駛中語音助理
  • 醫療診間記錄

不適合的場景

  • 正式法律 / 醫療諮詢(必須人工)
  • 情緒性客訴(需要真人安撫)
  • 網路品質差的環境(會卡)

技術實作

Gemini Live 用 WebSocket 連線,跟一般 REST API 不同。

// JavaScript / Web 端
const session = await client.live.connect({
  model: 'gemini-2.5-flash-live',
  config: {
    responseModalities: ['AUDIO'],
    systemInstruction: '你是客服 Andy,回答簡短、友善,必要時轉接人工'
  }
});

// 傳送麥克風音訊
session.sendAudio(audioChunk);

// 接收 AI 回應
session.on('audio', (audioData) => {
  playAudio(audioData);
});

// 用戶說話時打斷 AI
session.on('userSpeaking', () => {
  session.interrupt();
});

整合 LINE

LINE 不支援即時語音 API,所以 Gemini Live 在 LINE 上的應用是「異步」:

  1. 用戶傳語音訊息
  2. Webhook 接到 LINE 語音檔
  3. 用 Gemini Live API 處理 + 生成語音回應
  4. 用 LINE Messaging API 回傳語音訊息

整合 Web Call Center

正式的客服電話線整合,需要 SIP/RTP 通訊協定:

  1. 客戶撥打公司客服電話
  2. PBX 路由到 SIP 閘道(如 Twilio、Vonage)
  3. 閘道把音訊串流到後端
  4. 後端橋接 Gemini Live WebSocket
  5. Gemini Live 回應再串回客戶端

典型部署成本:建置 NT$300K–800K、月維運 NT$30–80K(含 SIP 線路費)。

延遲優化技巧

  1. 用 Gemini Flash Live 而非 Pro Live
  2. 限制 System Instruction 長度
  3. 關閉不需要的 modality(純語音不要回文字)
  4. 用 PCM 音訊格式(不是 mp3)
  5. 地理位置靠近 Google 機房(亞洲用 asia-east1)

常見問題

  • 聲音不夠擬人?選 Aoede、Charon、Fenrir 等不同語音模型試
  • 中文發音怪?2026 中文支援已改善,但情緒詞仍偶有不自然
  • 打斷不靈敏?調 VAD(語音活動偵測)門檻
  • 成本失控?限制單次對話時長、設立每日上限

注意事項

  1. 明確告知是 AI:開場白必須說「您好,我是 AI 客服」(避免欺騙)
  2. 提供轉人工選項:用戶說「轉人工」立即轉
  3. 錄音通知:依個資法告知對話被錄音
  4. 緊急情況處理:偵測到關鍵字(自殺、暴力)立即轉真人

RELATED ARTICLES

延伸閱讀。

— 最後一步

給我 30 分鐘,
告訴我你的業務。

我直接告訴你:你公司最該先用 AI 的 3 個地方、預算、補助。不收費、不推銷、不簽約。

L