Gemini 是第一個從設計之初就支援多模態的主流 LLM。圖、影、音都能直接餵給它——不必先 OCR、不必先轉檔。這篇用實戰案例帶您看。
什麼是多模態?
傳統 LLM 只懂文字,要處理圖像得先 OCR、要處理影片得先抽幀。Gemini 原生支援:
- 圖像(JPG、PNG、WebP)
- 影片(直接吃整段 mp4)
- 音訊(mp3、wav)
- PDF(圖文混合)
- 文字(當然)
圖像理解:Vision
response = client.models.generate_content(
model='gemini-2.5-flash',
contents=[
'請描述這張產品圖的所有可見資訊:品牌、規格、損傷',
types.Part.from_bytes(
data=open('product.jpg', 'rb').read(),
mime_type='image/jpeg'
)
]
)
商業應用
- 發票 / 收據自動 OCR + 結構化入帳
- 產品圖標籤比對(品管、防偽)
- 商品圖自動生成關鍵字 + 描述
- 診所衛教圖 alt-text 自動產出
影像生成:Nano Banana
Nano Banana 是 Gemini 內建的影像生成模型,特別擅長:
- 產品情境圖(不是真人模特兒、是物件 + 背景)
- 插畫風格圖
- 對比圖、流程圖、社群素材
呼叫方式:
response = client.models.generate_content(
model='gemini-2.5-flash-image',
contents='現代極簡風格,一個馬克杯放在木桌上,背景虛化'
)
# response 含 image data
影片摘要
Gemini 能直接讀整段影片(最長 1 小時)並做摘要。
video = client.files.upload(file='meeting.mp4')
response = client.models.generate_content(
model='gemini-2.5-pro',
contents=[video, '請整理這場會議的:1) 與會者 2) 重要決議 3) 待辦事項']
)
商業應用
- 會議錄影 → 自動逐字稿 + 行動清單
- YouTube 競品影片摘要
- 教學影片 → 章節索引
- 監視器影片 → 異常事件偵測
音訊處理
audio = client.files.upload(file='customer_call.mp3')
response = client.models.generate_content(
model='gemini-2.5-pro',
contents=[audio, '逐字稿 + 客戶情緒分析 + 客訴重點']
)
商業應用
- 客服錄音轉文字 + 情緒分析 + 客訴分類
- Podcast 自動生成文字稿與摘要
- 演講錄音 → 重點摘要與圖文卡
圖文混合工作流:完整案例
例:把 100 張產品圖批量處理成電商用素材
- 讀產品圖(Vision)
- 抽取規格、顏色、特徵
- 用 Nano Banana 生成情境圖
- 產出 SEO 友善的商品描述、alt-text、social 文案
- 寫入電商系統
n8n 加 Gemini Flash 可以全自動,每張產品月處理成本約 NT$1。
多模態的限制
- 影片 1 秒約消耗 263 tokens(Pro 模型)
- 圖像每張約 258 tokens(<= 384×384)
- 音訊每秒 32 tokens
- 大檔需上傳到 File API(48 小時自動刪)
結論
多模態是 2026 年 AI 的標配。如果您的工作流還在「先 OCR 再丟給 GPT」,請立即重構——直接給 Gemini 看圖、看影片、聽音檔,省下大量前處理時間與錯誤率。