向量最近邻搜索
向量最近邻搜索(Similarity Search)是一种基于向量空间中距离度量的搜索方法,其核心是找出与查询向量最相近的一组向量。尽管在计算过程中会使用特定的距离度量方式(Distance Metric),最终输 出按距离从小到大排序的 Top K 个最邻近向量。
本文主要介绍 seekdb 的两种向量搜索方式:基于全量扫描的精确最近邻搜索和基于向量索引的近似最近邻搜索,并通过具体示例说明其使用方法。
提示
为方便阅读,正文中将向量最近邻搜索简称为向量搜索,精确最近邻搜索简称为精确搜索,近似最近邻搜索简称为近似搜索。
执行精确搜索
精确搜索采用全量扫描策略,通过计算查询向量与数据集中所有向量的距离来执行精确搜索。这种方法能够保证搜索结果的完全准确性,但由于需要进行全量距离计算,搜索性能会随着数据规模的增长而显著下降。
在执行精确搜索时,系统会将查询向量 vₑ 与向量空间中的所有向量进行距离计算和比对。完成全量距离计算后,系统会选取距离最近的 k 个向量作为搜索结果返回。