云鸢

在自然语言处理（NLP）中，处理长文本（超出模型上下文窗口限制的文本）是一个重要挑战。目前主流的长文本处理技术可以分为以下几类： 1. 分块（Chunking）策略 (1) 固定长度分块（Fixed-Length Chunking）

Milvus 向量数据库详细介绍 1. 什么是 Milvus？ Milvus 是一个开源的向量数据库，专门为 AI 应用设计，用于高效存储、检索和分析海量向量数据。它支持：

在机器学习和向量数据库中，密集向量（Dense Vector）和稀疏向量（Sparse Vector）是两种不同的向量表示方式，适用于不同的数据特性和应用场景。以下是它们的核心区别和实际应用解析： 1. 密集向量（Dense Vector）特点：

一、什么是文本嵌入？文本嵌入（Text Embedding）是将自然语言中的词语、句子或文档，映射到一个连续的、低维的向量空间中，使得语义相近的文本在向量空间中距离较近。通俗地说，文本嵌入就是把文字变成“可以计算的数字向量”，是各种 NLP 任务（如文本分类、检索、问答、推荐系统等）的基础。

混合搜索（Hybrid Search）是一种结合多种检索技术的搜索方法，旨在同时利用语义搜索（向量检索）和关键词搜索（如BM25、TF-IDF）的优势，以提高搜索结果的准确性和相关性。以下是几种主要的混合搜索查询方法： 1. 基于倒排索引 + 向量检索的混合搜索原理：使用传统的倒排索引（如

RAG（Retrieval-Augmented Generation）是将检索（Retrieval）与生成（Generation）相结合的技术，它通过以下工作流程运作：核心工作流程用户查询接收系统接收用户的自然语言查询或问题

一、背景与动机在许多下游任务（如语义检索、文档相似度、问答系统）中，往往需要对较长文本进行高效且语义保留良好的向量化表示。传统做法是先将长文本切分为若干“块”（chunk），再分别对每块进行编码（早期切分，early chunking），但这种方式容易丢失跨块的上下文信息，导致检索或对比效果下降。

在自然语言处理（NLP）的Embedding生成过程中，Late Chunking（迟分策略）是一种处理长文本的技术，其核心思想是延迟对输入文本的分块，以更灵活地保留全局语义信息。以下是详细解释： 1. 背景：为什么需要Chunking？许多Embedding模型（如BERT、RoBERTa等）有