文件切割策略完整指南：Fixed、Semantic、Hierarchical

文件切片（Chunking）是 RAG 表現好壞的第一關。切錯了，後面 Embedding 再強、Reranker 再準也救不回來。這篇教您三種策略與實作。

為什麼要切片？

LLM context 有限，不能塞整本書
太大的 chunk 會稀釋相關度
切片可以保留來源 metadata（章節、頁碼）

策略 1：Fixed Size（固定大小）

最簡單：每 N 個 tokens 切一刀，相鄰 chunk 有 overlap。

from langchain.text_splitter import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    separators=["\n\n", "\n", "。", "，", " ", ""]
)
chunks = splitter.split_text(text)

優：簡單、快、可預測
缺：可能在句中切斷、語義不完整

建議參數：500 tokens + 50 overlap（中文）/ 800 + 100（英文）

策略 2：Semantic（語義切片）

用 embedding 偵測語義邊界——當相鄰句子的 embedding 距離大於門檻時切。

from llama_index.core.node_parser import SemanticSplitterNodeParser

splitter = SemanticSplitterNodeParser(
    buffer_size=1,
    breakpoint_percentile_threshold=95,
    embed_model=embed_model
)
nodes = splitter.get_nodes_from_documents(docs)

優：語義完整、效果好
缺：慢、貴（每次切都要算 embedding）

策略 3：Hierarchical（階層式）

多層切：章 → 節 → 段。檢索時可以動態調整粒度。

# 結構化文件（有 H1, H2, H3）
def hierarchical_chunk(doc):
    chapters = split_by_heading(doc, 'h1')
    for chapter in chapters:
        sections = split_by_heading(chapter, 'h2')
        for section in sections:
            paragraphs = split_by_size(section, 300)
            yield {
                'text': paragraph,
                'metadata': {'chapter': ..., 'section': ...}
            }

優：保留結構、利於檢索
缺：實作較複雜，適合有 H1/H2/H3 結構的文件

三種策略對比

策略	速度	品質	適合
Fixed Size	極快	中	大量純文字
Semantic	慢	高	高品質要求、量不大
Hierarchical	中	高	結構化文件（書、報告）

實務建議

第一版用 Fixed Size 500/50，跑起來看效果
若 Hit Rate < 70%，試 Semantic
若文件本身有結構（章節清楚），用 Hierarchical
所有策略都要保留 metadata（來源、頁碼、章節）

中文切片的特殊問題

沒有 word boundary，分詞工具不可靠 → 直接用字元數切
句號、分號是好的切點
表格、清單建議整塊保留
標題與內文要連在一起，別切散

chunk_size 怎麼挑？

太小（< 200）：缺乏語境
太大（> 1500）：稀釋相關度
實務最佳：300–800 tokens

chunk_overlap 怎麼挑？

0：邊界資訊會丟
10–20%：剛好
50%+：重複、浪費儲存

延伸閱讀。

12 min · 2026-05-28

RAG vs 微調 vs Long Context：你的場景該選哪一個？

三條技術路線的成本、效果、適用場景對比，含決策樹與三個企業案例。

閱讀全文→

14 min · 2026-05-29

RAG 完整架構教學：Retrieval + Generation 全圖

從文件進來到 LLM 回應的完整 RAG 流程，含每個元件的選型與調校。

閱讀全文→

9 min · 2026-05-31

Embedding 模型選擇完整指南：OpenAI vs Gemini vs 本地

中文表現、價格、速度、隱私四維度比較，幫你選對 Embedding 模型。

閱讀全文→

延伸工具

即時試算

AI ROI 試算機

拉五個滑桿，即時算出月節省、年節省、回本期與首年 ROI。

開始試算→

文件切割策略完整指南：Fixed、Semantic、Hierarchical

為什麼要切片？

策略 1：Fixed Size（固定大小）

策略 2：Semantic（語義切片）

策略 3：Hierarchical（階層式）

三種策略對比

實務建議

中文切片的特殊問題

chunk_size 怎麼挑？

chunk_overlap 怎麼挑？

RAG vs 微調 vs Long Context：你的場景該選哪一個？

RAG 完整架構教學：Retrieval + Generation 全圖

Embedding 模型選擇完整指南：OpenAI vs Gemini vs 本地

AI ROI 試算機

給我 30 分鐘，告訴我你的業務。

每週一封，南台灣中小企業AI 應用週報。

給我 30 分鐘，
告訴我你的業務。

每週一封，南台灣中小企業
AI 應用週報。