什么是向量嵌入?

向量嵌入 是文本、图像或其他数据映射到高维空间中的数值表示,其中点与点之间的距离反映了语义相似性(IBM,什么是向量嵌入?(2025)。在该空间中,含义大致相同的两句话会相距很近;而毫无关联的句子则相距甚远。这一特性使得嵌入成为语义搜索和检索增强生成(RAG)的基础。

向量嵌入的工作原理

嵌入模型会将一段文本作为输入,并输出一个浮点数列表,其维度通常在数百到数千之间。这些数值编码的是语义,而不仅仅是关键词。当您向向量数据库发起查询时,系统会计算您的查询向量与存储向量之间的余弦相似度,以找出最接近的匹配结果(IBM,什么是向量嵌入?(2025年)。余弦相似度衡量的是两个向量之间的夹角,而非它们之间的原始距离,因此当向量的大小发生变化时,该度量更为可靠。

从文本到数字

嵌入模型会读取一个句子,并为每个词或整个段落分配高维空间中的坐标。 语义相近的词最终会彼此邻近。“狗”和“小狗”聚类在一起;“发票”和“付款”则与二者分属不同的聚类。该模型经过训练,使得这些邻域能够反映现实世界中的语义关系。

矢量数据库

要高效地存储和搜索数百万个嵌入向量,需要使用向量数据库(Pinecone、Weaviate、Chroma 和 pgvector 是常见的选择)。这些数据库会对嵌入向量进行索引,因此即使在数千万条记录中,近似最近邻搜索也能在几毫秒内完成。

使用场景

检索增强生成(RAG): 大型语言模型(LLM)通过将用户的问题进行向量化,在向量数据库中搜索最匹配的段落,并将这些段落作为上下文注入提示词中,从而检索出相关的文档片段。这使得模型无需重新训练,即可基于私有或最新数据回答问题。

语义搜索: 传统的关键词搜索无法识别同义词和换词表达。基于嵌入向量的搜索则根据语义查找结果,因此,即使查询词“便宜的机票”与“经济型机票”这两个词完全不重合,系统仍会显示相关页面。

重复项和异常检测: 通过查找那些远离任何已知聚类的项目,嵌入模型能够标记数据集中近乎相同的文档或异常记录。

AI 数据管道: 在嵌入文档之前,您需要纯文本内容。网页渲染工具会从网页中提取可读内容;随后,这些内容会被分割成块并嵌入,以供后续的 AI 任务使用。Massive 的 Web Render API 可从任何公开 URL 返回纯净的 HTML 或 Markdown 内容,为 AI 处理流程提供一致且可解析的输入,同时避免触发机器人检测机制。

常见问题解答

词向量(如Word2Vec)为每个单词分配一个向量。现代向量嵌入技术涵盖整个句子、段落或文档,能够捕捉单词表示所无法体现的上下文信息。与传统的词级方法相比,句子转换器和基于API的模型如今在生产环境中的RAG系统中已变得更为普遍。

余弦相似度是文本嵌入中的标准选择,因为它衡量的是角度距离,而角度距离不受向量大小的影响,因此保持稳定(IBM,什么是向量嵌入?(2025年)。在图像和音频嵌入中,由于绝对位置具有更重要的意义,欧几里得距离的效果更好。

是的。图像、音频、代码和表格数据都可以被嵌入。CLIP等多模态模型会在同一个共享空间中为图像和文本生成嵌入向量,从而实现跨模态搜索(例如,根据文本描述查找匹配的图像)。

每当源内容发生变化时,就对文档进行重新嵌入和重新索引。大多数生产系统都会运行增量处理管道,这些管道会检测新记录或已修改的记录,并仅更新相应的嵌入向量,从而确保向量索引始终保持最新,而无需每次都进行完整重建。