长文本处理 在自然语言处理(NLP)中,处理长文本(超出模型上下文窗口限制的文本)是一个重要挑战。目前主流的长文本处理技术可以分为以下几类: 1. 分块(Chunking)策略 (1) 固定长度分块(Fixed-Length Chunking) 2025-08-20 37 0
Milvus 向量数据库 Milvus 向量数据库详细介绍 1. 什么是 Milvus? Milvus 是一个开源的 向量数据库,专门为 AI 应用设计,用于高效存储、检索和分析海量向量数据。它支持: 2025-08-20 67 0
稀释向量和密集向量 在机器学习和向量数据库中,密集向量(Dense Vector)和稀疏向量(Sparse Vector)是两种不同的向量表示方式,适用于不同的数据特性和应用场景。以下是它们的核心区别和实际应用解析: 1. 密集向量(Dense Vector) 特点: 2025-08-19 21 0
什么是文本嵌入 一、什么是文本嵌入? 文本嵌入(Text Embedding) 是将自然语言中的词语、句子或文档,映射到一个连续的、低维的向量空间中,使得语义相近的文本在向量空间中距离较近。 通俗地说,文本嵌入就是把文字变成“可以计算的数字向量”,是各种 NLP 任务(如文本分类、检索、问答、推荐系统等)的基础。 2025-08-18 11 0
混合搜索查询 混合搜索(Hybrid Search)是一种结合多种检索技术的搜索方法,旨在同时利用语义搜索(向量检索)和关键词搜索(如BM25、TF-IDF)的优势,以提高搜索结果的准确性和相关性。以下是几种主要的混合搜索查询方法: 1. 基于倒排索引 + 向量检索的混合搜索 原理:使用传统的倒排索引(如 2025-08-17 20 0
RAG(检索增强生成)工作流程详解 RAG(Retrieval-Augmented Generation)是将检索(Retrieval)与生成(Generation)相结合的技术,它通过以下工作流程运作: 核心工作流程 用户查询接收 系统接收用户的自然语言查询或问题 2025-08-16 26 0
迟分策略与嵌入算法 一、背景与动机 在许多下游任务(如语义检索、文档相似度、问答系统)中,往往需要对较长文本进行高效且语义保留良好的向量化表示。传统做法是先将长文本切分为若干“块”(chunk),再分别对每块进行编码(早期切分,early chunking),但这种方式容易丢失跨块的上下文信息,导致检索或对比效果下降。 2025-08-16 21 0
Late Chunking(迟分)策略 在自然语言处理(NLP)的Embedding生成过程中,Late Chunking(迟分策略)是一种处理长文本的技术,其核心思想是延迟对输入文本的分块,以更灵活地保留全局语义信息。以下是详细解释: 1. 背景:为什么需要Chunking? 许多Embedding模型(如BERT、RoBERTa等)有 2025-08-15 27 0