核心概念
向量数据库是专门设计用于高效存储、索引和搜索高维向量数据的系统。它的核心能力是处理以 “多维向量” 形式存在的数据 —— 这些向量可以是文本、图像、音频等非结构化数据的 “数字指纹”,通过捕捉对象的特征(如文本语义、图像颜色 / 形状、音频节奏),使相似对象在向量空间中距离更近,从而实现快速的相似性检索。
与传统数据库(基于关键字精确匹配)不同,向量数据库的核心是“语义理解”:例如搜索 “小狗” 时,能自动关联 “柯基”“金毛” 等语义相似的内容,无需人工标注关联关系。
传统数据库:基于关键词精确匹配(如WHERE title LIKE '%小狗%')
向量数据库:基于语义相似度匹配(“小狗” ≈ “柯基”、“金毛”)
核心机制
1. 向量存储
- 向量嵌入(Vector Embeddings):通过 AI 模型(如文本用
text-embedding-ada-002,图像用clip-vit)将非结构化数据转化为高维向量(通常数百至数千维)。这些向量编码了对象的核心特征 —— 例如文本向量包含语义、情感,图像向量包含颜色、边缘特征。 - 核心特性:相似对象的向量在空间中距离更近(如 “猫” 和 “狗” 的向量距离,比 “猫” 和 “鱼” 更近)。
Embedding 模型选择(关键!)
- 中文推荐:
BAAI/bge-small-zh/bge-large-zh - 通用英文:
text-embedding-ada-002/all-MiniLM-L6-v2 - 多模态:
CLIP(图文)
2. 工作流程
- 用户查询:输入文本、图像等(如 “推荐类似《三体》的科幻小说”)。
- 嵌入创建:将查询转化为向量(如用模型生成 “科幻小说《三体》” 的向量)。
- 相似性搜索:计算查询向量与数据库中所有向量的距离,找到最接近的 Top-K 结果。
- 结果返回:将匹配的向量对应的原始数据(如小说信息)返回给用户。
3. 相似性度量
向量数据库通过计算向量间的 “距离” 判断相似性,常用方法包括:
- 欧氏距离(L2):衡量向量空间中两点的直线距离,适合关注 “绝对差异” 的场景(如用户行为特征匹配)。
- 余弦相似度:衡量向量夹角的余弦值,对向量长度不敏感,适合 “方向相似性” 场景(如文本语义匹配,忽略长短差异)。
- 点积相似度:兼顾向量方向和长度,适合需要考虑 “强度” 的场景(如推荐系统中用户偏好的强弱)。
4. 高效检索
- 向量索引:通过特殊数据结构(如 HNSW、IVF、KD - 树)减少搜索范围,避免全量计算。例如 HNSW(层次化近似最近邻)通过构建多层图,快速定位近似相似的向量。
- 元数据过滤:结合元数据索引(如时间、类别标签),先通过 “标签筛选” 缩小范围(如 “2023 年出版的科幻小说”),再进行向量相似性搜索,大幅提升效率。
典型应用场景
- 推荐系统:将用户行为(如浏览、购买)和物品特征转化为向量,通过相似性搜索推荐 “用户可能喜欢的物品”(如音乐 APP 推荐相似曲风的歌曲)。
- 语义搜索引擎:超越关键字匹配,实现 “意思相近即命中”(如搜索 “如何快速煮米饭”,返回包含 “电饭煲煮饭步骤” 的内容)。
- 图像 / 视频检索:将图像转化为向量,快速查找相似图片(如电商平台的 “以图搜款” 功能)。
- RAG(检索增强生成):为 LLM 提供 “外部知识库”—— 将文档转化为向量存储,用户提问时先检索相关文档,再让 LLM 基于文档生成答案,减少幻觉(如企业客服基于内部手册回答问题)。
- 生物信息学:将基因序列、蛋白质结构转化为向量,通过相似性搜索发现同源序列或潜在相互作用。
主流向量数据库选型对比
数据库 | 核心特性 | 优势场景 | 开源协议 | 易用性 |
Chroma | 轻量级,原生 Python 支持,集成 Jupyter 友好,适合快速开发 | 原型验证、小规模多媒体检索 | Apache 2.0 | ★★★★★ |
Milvus | 分布式架构,支持 PB 级数据,多种索引(HNSW/IVF),云原生部署 | 大规模生产环境(推荐系统、RAG) | Apache 2.0 | ★★★★ |
Faiss | 由 Facebook 开发,GPU 加速支持,极致性能,适合超大规模向量(数十亿级) | 高性能检索场景(图像检索) | MIT | ★★★ |
Weaviate | 结合知识图谱,支持 GraphQL 查询,实时数据更新,自动推断数据结构 | 企业级知识管理、复杂关系检索 | BSD-3-Clause | ★★★★ |
pgvector | 与 PostgreSQL 集成,支持 SQL 查询,无需额外部署数据库 | 已有 PostgreSQL 的场景 | PostgreSQL License | ★★★★ |
最佳选择:
- 开发/测试阶段:用 Chroma 快速验证 RAG 效果
- 生产部署:用 Milvus(支持分片、副本、监控)或 pgvector(若已有 PG)
选型关键指标
- 数据规模:小规模(<100 万向量)选 Chroma/pgvector;大规模(亿级 +)选 Milvus/Faiss。
- 性能需求:需 GPU 加速选 Faiss;需分布式扩展选 Milvus。
- 集成难度:Python 开发者优先 Chroma;已有 PostgreSQL 优先 pgvector。
实践示例
以下是基于 Faiss 的核心流程代码,实现 “查询与文档的语义匹配”:
import numpy as np import faiss from transformers import AutoTokenizer, AutoModel # 1. 加载模型:将文本转为向量 model_name = "sentence-transformers/all-MiniLM-L6-v2" # 轻量级文本嵌入模型 tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModel.from_pretrained(model_name) # 2. 文档转向量:计算文档的嵌入 def text_to_vector(texts): inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt") with torch.no_grad(): outputs = model(**inputs) # 取最后一层隐藏状态的均值作为向量 return outputs.last_hidden_state.mean(dim=1).numpy().astype("float32") # 3. 准备文档与创建索引 documents = [ "机器学习是人工智能的一个分支", "深度学习是机器学习的子集,基于神经网络", "自然语言处理专注于文本和语言理解", "计算机视觉研究如何让机器看懂图像" ] doc_vectors = text_to_vector(documents) dim = doc_vectors.shape[1] # 向量维度(此处为384) index = faiss.IndexFlatL2(dim) # 用欧氏距离创建索引 index.add(doc_vectors) # 将文档向量加入索引 # 4. 查询与检索 user_query = "什么是深度学习?" query_vector = text_to_vector([user_query]) # 生成查询向量 k = 2 # 返回最相似的2个结果 distances, indices = index.search(query_vector, k) # 搜索 # 5. 输出结果 print("最相似的文档:") for i in indices[0]: print(documents[i]) # 输出: # 深度学习是机器学习的子集,基于神经网络 # 机器学习是人工智能的一个分支总结
向量数据库是非结构化数据 “语义理解” 与 “高效检索” 的基础设施,通过将复杂对象转化为可计算的向量,解决了传统数据库无法处理的 “相似性匹配” 问题。无论是 LLM 的 RAG 增强、推荐系统的个性化推荐,还是图像 / 音频的智能检索,向量数据库都扮演着 “桥梁” 角色 —— 连接原始数据与 AI 模型,让机器真正 “理解” 数据的含义。
选择时需结合数据规模、性能需求和现有技术栈,小规模场景优先易用性(如 Chroma),大规模生产环境优先扩展性(如 Milvus)。