网站Logo 云鸢
首页
LeetCode
RAG(检索、增强、生成)
友链
关于
登录
 长文本处理

长文本处理

在自然语言处理(NLP)中,处理长文本(超出模型上下文窗口限制的文本)是一个重要挑战。目前主流的长文本处理技术可以分为以下几类: 1. 分块(Chunking)策略 (1) 固定长度分块(Fixed-Length Chunking)

2025-08-20
37
0
 长文本处理

Milvus 向量数据库

Milvus 向量数据库详细介绍 1. 什么是 Milvus? Milvus 是一个开源的 向量数据库,专门为 AI 应用设计,用于高效存储、检索和分析海量向量数据。它支持:

2025-08-20
67
0
Milvus 向量数据库
Milvus 向量数据库
稀释向量和密集向量

稀释向量和密集向量

在机器学习和向量数据库中,密集向量(Dense Vector)和稀疏向量(Sparse Vector)是两种不同的向量表示方式,适用于不同的数据特性和应用场景。以下是它们的核心区别和实际应用解析: 1. 密集向量(Dense Vector) 特点:

2025-08-19
21
0
稀释向量和密集向量

什么是文本嵌入

一、什么是文本嵌入? 文本嵌入(Text Embedding) 是将自然语言中的词语、句子或文档,映射到一个连续的、低维的向量空间中,使得语义相近的文本在向量空间中距离较近。 通俗地说,文本嵌入就是把文字变成“可以计算的数字向量”,是各种 NLP 任务(如文本分类、检索、问答、推荐系统等)的基础。

2025-08-18
11
0
什么是文本嵌入
什么是文本嵌入
混合搜索查询

混合搜索查询

混合搜索(Hybrid Search)是一种结合多种检索技术的搜索方法,旨在同时利用语义搜索(向量检索)和关键词搜索(如BM25、TF-IDF)的优势,以提高搜索结果的准确性和相关性。以下是几种主要的混合搜索查询方法: 1. 基于倒排索引 + 向量检索的混合搜索 原理:使用传统的倒排索引(如

2025-08-17
20
0
混合搜索查询

RAG(检索增强生成)工作流程详解

RAG(Retrieval-Augmented Generation)是将检索(Retrieval)与生成(Generation)相结合的技术,它通过以下工作流程运作: 核心工作流程 用户查询接收 系统接收用户的自然语言查询或问题

2025-08-16
26
0
 RAG(检索增强生成)工作流程详解
 RAG(检索增强生成)工作流程详解
迟分策略与嵌入算法

迟分策略与嵌入算法

一、背景与动机 在许多下游任务(如语义检索、文档相似度、问答系统)中,往往需要对较长文本进行高效且语义保留良好的向量化表示。传统做法是先将长文本切分为若干“块”(chunk),再分别对每块进行编码(早期切分,early chunking),但这种方式容易丢失跨块的上下文信息,导致检索或对比效果下降。

2025-08-16
21
0
迟分策略与嵌入算法

Late Chunking(迟分)策略

在自然语言处理(NLP)的Embedding生成过程中,Late Chunking(迟分策略)是一种处理长文本的技术,其核心思想是延迟对输入文本的分块,以更灵活地保留全局语义信息。以下是详细解释: 1. 背景:为什么需要Chunking? 许多Embedding模型(如BERT、RoBERTa等)有

2025-08-15
27
0
 Late Chunking(迟分)策略
 Late Chunking(迟分)策略