云鸢

云鸢

首页

LeetCode

后端开发

RAG（检索、增强、生成）

友链

关于

遇事不决，可问春风

什么是文本嵌入

一、什么是文本嵌入？文本嵌入（Text Embedding）是将自然语言中的词语、句子或文档，映射到一个连续的、低维的向量空间中，使得语义相近的文本在向量空间中距离较近。通俗地说，文本嵌入就是把文字变成“可以计算的数字向量”，是各种 NLP 任务（如文本分类、检索、问答、推荐系统等）的基础。

遇事不决，可问春风

Minio平替→Rustfs

RustFS 用热门安全的 Rust 语言开发，兼容 S3 协议。适用于 AI/ML 及海量数据存储、大数据、互联网、工业和保密存储等全部场景。近乎免费使用。遵循 Apache 2 协议，支持国产保密设备和系统。 docker安装 docker pull rustfs/rustfs:latest s

遇事不决，可问春风

混合搜索查询

混合搜索（Hybrid Search）是一种结合多种检索技术的搜索方法，旨在同时利用语义搜索（向量检索）和关键词搜索（如BM25、TF-IDF）的优势，以提高搜索结果的准确性和相关性。以下是几种主要的混合搜索查询方法： 1. 基于倒排索引 + 向量检索的混合搜索原理：使用传统的倒排索引（如

遇事不决，可问春风

RAG（检索增强生成）工作流程详解

RAG（Retrieval-Augmented Generation）是将检索（Retrieval）与生成（Generation）相结合的技术，它通过以下工作流程运作：核心工作流程用户查询接收系统接收用户的自然语言查询或问题

遇事不决，可问春风

迟分策略与嵌入算法

一、背景与动机在许多下游任务（如语义检索、文档相似度、问答系统）中，往往需要对较长文本进行高效且语义保留良好的向量化表示。传统做法是先将长文本切分为若干“块”（chunk），再分别对每块进行编码（早期切分，early chunking），但这种方式容易丢失跨块的上下文信息，导致检索或对比效果下降。

遇事不决，可问春风

Late Chunking（迟分）策略

在自然语言处理（NLP）的Embedding生成过程中，Late Chunking（迟分策略）是一种处理长文本的技术，其核心思想是延迟对输入文本的分块，以更灵活地保留全局语义信息。以下是详细解释： 1. 背景：为什么需要Chunking？许多Embedding模型（如BERT、RoBERTa等）有

1 2

云鸢

长河无声奔去，唯爱与信念永存

文章

16

分类

5

标签

9

热门文章

1

Milvus 向量数据库

2025-08-20

2

长文本处理

2025-08-20

3

Late Chunking（迟分）策略

2025-08-20

4

RAG（检索增强生成）工作流程详解

2025-08-20

5

混合搜索查询

2025-08-20

标签云

滑动窗口力扣哈希表双指针就业 Ai Agent 后端算法