— PILLAR 02 · Google AI Studio & Gemini

Gemini 多模態應用實戰:圖、影、音整合

Vision API、Nano Banana、影片摘要、語音轉錄——一篇看懂 Gemini 的多模態能力。

PUBLISHED
2026-05-21
READ TIME
11 min
WORD COUNT
2700 字
CATEGORY
PILLAR 02

Gemini 是第一個從設計之初就支援多模態的主流 LLM。圖、影、音都能直接餵給它——不必先 OCR、不必先轉檔。這篇用實戰案例帶您看。

什麼是多模態?

傳統 LLM 只懂文字,要處理圖像得先 OCR、要處理影片得先抽幀。Gemini 原生支援:

  • 圖像(JPG、PNG、WebP)
  • 影片(直接吃整段 mp4)
  • 音訊(mp3、wav)
  • PDF(圖文混合)
  • 文字(當然)

圖像理解:Vision

response = client.models.generate_content(
    model='gemini-2.5-flash',
    contents=[
        '請描述這張產品圖的所有可見資訊:品牌、規格、損傷',
        types.Part.from_bytes(
            data=open('product.jpg', 'rb').read(),
            mime_type='image/jpeg'
        )
    ]
)

商業應用

  • 發票 / 收據自動 OCR + 結構化入帳
  • 產品圖標籤比對(品管、防偽)
  • 商品圖自動生成關鍵字 + 描述
  • 診所衛教圖 alt-text 自動產出

影像生成:Nano Banana

Nano Banana 是 Gemini 內建的影像生成模型,特別擅長:

  • 產品情境圖(不是真人模特兒、是物件 + 背景)
  • 插畫風格圖
  • 對比圖、流程圖、社群素材

呼叫方式:

response = client.models.generate_content(
    model='gemini-2.5-flash-image',
    contents='現代極簡風格,一個馬克杯放在木桌上,背景虛化'
)
# response 含 image data

影片摘要

Gemini 能直接讀整段影片(最長 1 小時)並做摘要。

video = client.files.upload(file='meeting.mp4')
response = client.models.generate_content(
    model='gemini-2.5-pro',
    contents=[video, '請整理這場會議的:1) 與會者 2) 重要決議 3) 待辦事項']
)

商業應用

  • 會議錄影 → 自動逐字稿 + 行動清單
  • YouTube 競品影片摘要
  • 教學影片 → 章節索引
  • 監視器影片 → 異常事件偵測

音訊處理

audio = client.files.upload(file='customer_call.mp3')
response = client.models.generate_content(
    model='gemini-2.5-pro',
    contents=[audio, '逐字稿 + 客戶情緒分析 + 客訴重點']
)

商業應用

  • 客服錄音轉文字 + 情緒分析 + 客訴分類
  • Podcast 自動生成文字稿與摘要
  • 演講錄音 → 重點摘要與圖文卡

圖文混合工作流:完整案例

例:把 100 張產品圖批量處理成電商用素材

  1. 讀產品圖(Vision)
  2. 抽取規格、顏色、特徵
  3. 用 Nano Banana 生成情境圖
  4. 產出 SEO 友善的商品描述、alt-text、social 文案
  5. 寫入電商系統

n8n 加 Gemini Flash 可以全自動,每張產品月處理成本約 NT$1。

多模態的限制

  • 影片 1 秒約消耗 263 tokens(Pro 模型)
  • 圖像每張約 258 tokens(<= 384×384)
  • 音訊每秒 32 tokens
  • 大檔需上傳到 File API(48 小時自動刪)

結論

多模態是 2026 年 AI 的標配。如果您的工作流還在「先 OCR 再丟給 GPT」,請立即重構——直接給 Gemini 看圖、看影片、聽音檔,省下大量前處理時間與錯誤率。


RELATED ARTICLES

延伸閱讀。

— 最後一步

給我 30 分鐘,
告訴我你的業務。

我直接告訴你:你公司最該先用 AI 的 3 個地方、預算、補助。不收費、不推銷、不簽約。

L