向量数据库 VectorDBBench 测试

VectorDBBench 是一款为主流向量数据库和云服务提供基准测试结果的工具，本文档通过 VectorDBBench 测试 seekdb 向量数据库的性能。VectorDBBench 的设计注重易用性，可以轻松复现结果或测试新系统。

准备工作

部署 seekdb。

安装 Python 3.11 及以上版本。示例使用 Conda 安装。

# 下载安装 Conda
mkdir -p ~/miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh
bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3
rm ~/miniconda3/miniconda.sh

# 重新打开终端，初始化 Conda
source ~/miniconda3/bin/activate
conda init --all

# 新建和初始化 VectorDBBench 所需的 Python 环境
conda create -n vdb python=3.11
conda activate vdb

连接数据库，调优 HNSW 向量索引搜索相关内存和查询参数：

-- ob_vector_memory_limit_percentage 设置为 30%。
ALTER SYSTEM SET ob_vector_memory_limit_percentage = 30;
-- ob_query_timeout 设置为 24 小时。
SET GLOBAL ob_query_timeout = 86400000000;
-- max_allowed_packet 设置为 1GB。
SET GLOBAL max_allowed_packet=1073741824;
-- ddl_thread_score 和 parallel_servers_target 设置创建建索引时的并行度
ALTER SYSTEM SET ddl_thread_score = 8; -- DDL 操作的并行度
SET GLOBAL parallel_servers_target = 624; -- 数据库服务器可以同时处理的并行查询数量

其中 ob_vector_memory_limit_percentage = 30 只是示例值，具体请根据数据库内存和业务量调整。

配置项	值
内存	64G
CPU	16C

测试方法

克隆 VectorDBBench 代码

提示

建议将 VectorDBBench 和 seekdb部署在不同机器上，以避免 CPU 资源争夺，提高测试结果的可靠性。

克隆测试工具 VectorDBBench 代码到本地。

git clone https://github.com/zilliztech/VectorDBBench.git

安装依赖

进入 VectorDBBench 目录安装依赖。

cd VectorDBBench
pip install .

运行测试

运行 VectorDBBench。这里给出 HNSW 索引和 IVF 索引两个示例。

HNSW 索引示例

# $host，$port，$user 需替换为实际的 seekdb连接信息。
vectordbbench oceanbasehnsw --host $host --port $port --user $user --database test --m 16 --ef-construction 200 --ef-search 40 --k 10 --case-type Performance768D1M --index-type HNSW

更多参数信息可以通过以下命令查看：

vectordbbench oceanbasehnsw --help

几个常用选项具体说明如下：

--num-concurrency：用于调整并发度。 VectorDBBench 会按指定的并发去执行向量查询，并选择最大的 QPS（Queries Per Second，每秒查询数）作为最终结果。
--skip-drop-old/--skip-load：表示跳过删除旧数据和导数的步骤。在命令行加上这两个选项后，命令仅执行向量查询操作，而不会删除旧数据重新导数。
--k：指定向量查询中要返回的前 K 个近邻结果的个数。
--ef-search：HNSW 查询参数，表示查询时的候选集大小。
--index-type：指定索引类型，目前支持 HNSW、HNSW_SQ 和 HNSW_BQ。

IVF 索引示例

vectordbbench oceanbaseivf --host $host --port $port --user $user --database test --nlist 1000 --sample_per_nlist 256 --ivf_nprobes 100  --case-type Performance768D1M --index-type IVF_FLAT

几个常用选项说明如下：

--sample_per_nlist：每个聚类中心的取样的数据量。默认值 256。
--ivf_nprobes：用于设置在进行向量索引查询时，本次查询搜索多少个最近的聚类中心。默认值为 8，值越大，召回率越高，但同时搜索时间也会增加。
--index-type：指定索引类型，目前支持 IVF_FLAT。

更多参数信息可以通过以下命令查看：

vectordbbench oceanbaseivf --help

常见问题

第一次执行测试很慢正常吗？

第一次执行测试需要在 AWS S3 存储下载所需数据集，时间可能会相对较久，为正常现象。

可以自定义修改测试代码吗？

可以。如果你自定义修改了测试代码，需要重新执行 pip install . 安装后再运行测试。

向量数据库 VectorDBBench 测试

准备工作

推荐配置

测试方法

克隆 VectorDBBench 代码

安装依赖

运行测试

HNSW 索引示例

IVF 索引示例

常见问题

第一次执行测试很慢正常吗？

可以自定义修改测试代码吗？

Contents

准备工作​

推荐配置​

测试方法​

克隆 VectorDBBench 代码​

安装依赖​

运行测试​

HNSW 索引示例​

IVF 索引示例​

常见问题​

第一次执行测试很慢正常吗？​

可以自定义修改测试代码吗？​

Contents

准备工作

推荐配置

测试方法

克隆 VectorDBBench 代码

安装依赖

运行测试

HNSW 索引示例

IVF 索引示例

常见问题

第一次执行测试很慢正常吗？

可以自定义修改测试代码吗？