什么是向量嵌入？

向量嵌入 是文本、图像或其他数据映射到高维空间中的数值表示，其中点与点之间的距离反映了语义相似性（IBM，什么是向量嵌入？（2025）。在该空间中，含义大致相同的两句话会相距很近；而毫无关联的句子则相距甚远。这一特性使得嵌入成为语义搜索和检索增强生成（RAG）的基础。

向量嵌入的工作原理

嵌入模型会将一段文本作为输入，并输出一个浮点数列表，其维度通常在数百到数千之间。这些数值编码的是语义，而不仅仅是关键词。当您向向量数据库发起查询时，系统会计算您的查询向量与存储向量之间的余弦相似度，以找出最接近的匹配结果（IBM，什么是向量嵌入？（2025年）。余弦相似度衡量的是两个向量之间的夹角，而非它们之间的原始距离，因此当向量的大小发生变化时，该度量更为可靠。

从文本到数字

嵌入模型会读取一个句子，并为每个词或整个段落分配高维空间中的坐标。语义相近的词最终会彼此邻近。“狗”和“小狗”聚类在一起；“发票”和“付款”则与二者分属不同的聚类。该模型经过训练，使得这些邻域能够反映现实世界中的语义关系。

矢量数据库

要高效地存储和搜索数百万个嵌入向量，需要使用向量数据库（Pinecone、Weaviate、Chroma 和 pgvector 是常见的选择）。这些数据库会对嵌入向量进行索引，因此即使在数千万条记录中，近似最近邻搜索也能在几毫秒内完成。

使用场景

检索增强生成（RAG）： 大型语言模型（LLM）通过将用户的问题进行向量化，在向量数据库中搜索最匹配的段落，并将这些段落作为上下文注入提示词中，从而检索出相关的文档片段。这使得模型无需重新训练，即可基于私有或最新数据回答问题。

语义搜索： 传统的关键词搜索无法识别同义词和换词表达。基于嵌入向量的搜索则根据语义查找结果，因此，即使查询词“便宜的机票”与“经济型机票”这两个词完全不重合，系统仍会显示相关页面。

重复项和异常检测： 通过查找那些远离任何已知聚类的项目，嵌入模型能够标记数据集中近乎相同的文档或异常记录。

AI 数据管道： 在嵌入文档之前，您需要纯文本内容。网页渲染工具会从网页中提取可读内容；随后，这些内容会被分割成块并嵌入，以供后续的 AI 任务使用。Massive 的 Web Render API 可从任何公开 URL 返回纯净的 HTML 或 Markdown 内容，为 AI 处理流程提供一致且可解析的输入，同时避免触发机器人检测机制。

常见问题解答

词向量（如Word2Vec）为每个单词分配一个向量。现代向量嵌入技术涵盖整个句子、段落或文档，能够捕捉单词表示所无法体现的上下文信息。与传统的词级方法相比，句子转换器和基于API的模型如今在生产环境中的RAG系统中已变得更为普遍。

余弦相似度是文本嵌入中的标准选择，因为它衡量的是角度距离，而角度距离不受向量大小的影响，因此保持稳定（IBM，什么是向量嵌入？（2025年）。在图像和音频嵌入中，由于绝对位置具有更重要的意义，欧几里得距离的效果更好。

是的。图像、音频、代码和表格数据都可以被嵌入。CLIP等多模态模型会在同一个共享空间中为图像和文本生成嵌入向量，从而实现跨模态搜索（例如，根据文本描述查找匹配的图像）。

每当源内容发生变化时，就对文档进行重新嵌入和重新索引。大多数生产系统都会运行增量处理管道，这些管道会检测新记录或已修改的记录，并仅更新相应的嵌入向量，从而确保向量索引始终保持最新，而无需每次都进行完整重建。