Gemini 多模態應用實戰：圖、影、音整合

Gemini 是第一個從設計之初就支援多模態的主流 LLM。圖、影、音都能直接餵給它——不必先 OCR、不必先轉檔。這篇用實戰案例帶您看。

什麼是多模態？

傳統 LLM 只懂文字，要處理圖像得先 OCR、要處理影片得先抽幀。Gemini 原生支援：

圖像（JPG、PNG、WebP）
影片（直接吃整段 mp4）
音訊（mp3、wav）
PDF（圖文混合）
文字（當然）

圖像理解：Vision

response = client.models.generate_content(
    model='gemini-2.5-flash',
    contents=[
        '請描述這張產品圖的所有可見資訊：品牌、規格、損傷',
        types.Part.from_bytes(
            data=open('product.jpg', 'rb').read(),
            mime_type='image/jpeg'
        )
    ]
)

商業應用

發票 / 收據自動 OCR + 結構化入帳
產品圖標籤比對（品管、防偽）
商品圖自動生成關鍵字 + 描述
診所衛教圖 alt-text 自動產出

影像生成：Nano Banana

Nano Banana 是 Gemini 內建的影像生成模型，特別擅長：

產品情境圖（不是真人模特兒、是物件 + 背景）
插畫風格圖
對比圖、流程圖、社群素材

呼叫方式：

response = client.models.generate_content(
    model='gemini-2.5-flash-image',
    contents='現代極簡風格，一個馬克杯放在木桌上，背景虛化'
)
# response 含 image data

影片摘要

Gemini 能直接讀整段影片（最長 1 小時）並做摘要。

video = client.files.upload(file='meeting.mp4')
response = client.models.generate_content(
    model='gemini-2.5-pro',
    contents=[video, '請整理這場會議的：1) 與會者 2) 重要決議 3) 待辦事項']
)

商業應用

會議錄影 → 自動逐字稿 + 行動清單
YouTube 競品影片摘要
教學影片 → 章節索引
監視器影片 → 異常事件偵測

音訊處理

audio = client.files.upload(file='customer_call.mp3')
response = client.models.generate_content(
    model='gemini-2.5-pro',
    contents=[audio, '逐字稿 + 客戶情緒分析 + 客訴重點']
)

商業應用

客服錄音轉文字 + 情緒分析 + 客訴分類
Podcast 自動生成文字稿與摘要
演講錄音 → 重點摘要與圖文卡

圖文混合工作流：完整案例

例：把 100 張產品圖批量處理成電商用素材

讀產品圖（Vision）
抽取規格、顏色、特徵
用 Nano Banana 生成情境圖
產出 SEO 友善的商品描述、alt-text、social 文案
寫入電商系統

n8n 加 Gemini Flash 可以全自動，每張產品月處理成本約 NT$1。

多模態的限制

影片 1 秒約消耗 263 tokens（Pro 模型）
圖像每張約 258 tokens（<= 384×384）
音訊每秒 32 tokens
大檔需上傳到 File API（48 小時自動刪）

結論

多模態是 2026 年 AI 的標配。如果您的工作流還在「先 OCR 再丟給 GPT」，請立即重構——直接給 Gemini 看圖、看影片、聽音檔，省下大量前處理時間與錯誤率。

延伸閱讀。

14 min · 2026-05-16

Google AI Studio 完整入門指南：從免費額度到企業部署

AI Studio vs Vertex AI、Gemini 模型選型、免費額度、Function Calling、Context Caching 全面教學。

閱讀全文→

12 min · 2026-05-17

Gemini vs ChatGPT vs Claude：2026 年企業選型完整比較

三大模型在中文、多模態、價格、隱私的真實對比，加上三種企業情境的推薦。

閱讀全文→

8 min · 2026-05-18

Gemini API 收費完整解析：2026 最新報價

按 token 計費、Free Tier、Context Caching 折扣、Batch 半價——把 API 帳單算清楚。

閱讀全文→

延伸工具

即時試算

AI ROI 試算機

拉五個滑桿，即時算出月節省、年節省、回本期與首年 ROI。

開始試算→

Gemini 多模態應用實戰：圖、影、音整合

什麼是多模態？

圖像理解：Vision

商業應用

影像生成：Nano Banana

影片摘要

商業應用

音訊處理

商業應用

圖文混合工作流：完整案例

多模態的限制

結論

Google AI Studio 完整入門指南：從免費額度到企業部署

Gemini vs ChatGPT vs Claude：2026 年企業選型完整比較

Gemini API 收費完整解析：2026 最新報價

AI ROI 試算機

給我 30 分鐘，告訴我你的業務。

每週一封，南台灣中小企業AI 應用週報。

給我 30 分鐘，
告訴我你的業務。

每週一封，南台灣中小企業
AI 應用週報。