云鸢

首页

LeetCode

后端开发

RAG（检索、增强、生成）

友链

关于

Late Chunking（迟分）策略

cloud-yuan

30

2025-08-15

在自然语言处理（NLP）的Embedding生成过程中，Late Chunking（迟分策略）是一种处理长文本的技术，其核心思想是延迟对输入文本的分块，以更灵活地保留全局语义信息。以下是详细解释：

1. 背景：为什么需要Chunking？

许多Embedding模型（如BERT、RoBERTa等）有输入长度限制（例如512个token）。当文本超过限制时，必须将其分割（chunking）成多个片段。
传统方法（Early Chunking）会先分块再编码，每个片段独立处理，可能导致上下文碎片化，丢失全局语义。

2. Late Chunking的核心思想

Late Chunking的流程如下：

全局编码：先对整个长文本进行编码（如通过滑动窗口或分层模型），生成一个初步的全局表示。
迟分决策：基于全局信息，动态决定如何分块（例如，按语义边界、句子重要性等），而非机械地按固定长度切割。
分块细化：对最终分块后的片段单独编码时，融入全局上下文（例如通过注意力机制或上下文缓存）。

3. 技术实现方式

滑动窗口+池化：用滑动窗口扫描全文，生成局部Embedding后通过池化（如最大池化）保留关键信息。
分层编码：先对句子/段落编码，再聚合为全局表示（类似Transformer-XL的结构）。
动态分块：利用语义分割算法（如TextTiling）或模型（如BERT的注意力头）识别最佳分块点。

4. Late Chunking vs. Early Chunking

策略	Early Chunking	Late Chunking
分块时机	编码前预先分块	编码后或动态分块
上下文保留	局部片段独立处理	全局信息指导分块
语义连贯性	可能断裂	更好保留长程依赖
计算成本	较低	较高（需全局处理）

5. 优势与适用场景

优势：
- 减少因硬分割导致的语义损失。
- 对长文档（如科研论文、法律文本）更友好。
适用场景：
- 需要捕获长距离依赖的任务（如文档分类、问答）。
- 对分段敏感的下游应用（如信息检索）。

6. 例子

假设有一篇长文章，传统方法可能按固定长度切成不相交的段落。而Late Chunking会：

先通读全文，标记关键主题句。
按主题边界分块，确保每块语义完整。
编码时参考全文的潜在主题分布。

总结

Late Chunking通过延迟分块决策，利用全局信息优化局部表示，是处理长文本Embedding的一种高级策略。尽管计算复杂度较高，但在语义敏感的任务中能显著提升效果。

📚 目录