版本：V1.1.0

seekdb Vector 与 Jina AI 集成

seekdb 提供了向量类型存储、向量索引、embedding 向量搜索的能力。可以将向量化后的数据存储在 seekdb，供下一步的搜索使用。

Jina AI 是一个专注于多模态搜索和向量搜索的 AI 平台框架。它提供了构建企业级搜索增强生成 AI 应用程序所需的核心组件和工具，可以帮助企业和开发者构建基于多模态搜索的 RAG（搜索增强生成）应用。

前提条件

您已完成部署 seekdb 数据库。
您的环境中已存在可以使用的 MySQL 数据库和账号，并已对数据库账号授读写权限。
安装 Python 3.11 及以上版本。

安装依赖。

python3 -m pip install cffi pyseekdb requests

步骤一：获取数据库连接信息

联系 seekdb 数据库部署人员或者管理员获取相应的数据库连接串，例如：

mysql -h$host -P$port -u$user_name -p$password -D$database_name

参数说明：

$host：提供 seekdb 连接 IP 地址。
$port：提供 seekdb 连接端口，默认是 2881。
$database_name：需要访问的数据库名称。

提示
连接的用户需要拥有该数据库的 CREATE、INSERT、DROP 和 SELECT 权限。
$user_name：提供数据库连接账户。
$password：提供账户密码。

步骤二：构建您的 AI 助手

设置 Jina AI API key 环境变量

获取 Jina AI API 密钥，并同 seekdb 连接信息配置环境变量中。

export SEEKDB_DATABASE_URL=YOUR_SEEKDB_DATABASE_URL
export SEEKDB_DATABASE_USER=YOUR_SEEKDB_DATABASE_USER
export SEEKDB_DATABASE_DB_NAME=YOUR_SEEKDB_DATABASE_DB_NAME
export SEEKDB_DATABASE_PASSWORD=YOUR_SEEKDB_DATABASE_PASSWORD
export JINAAI_API_KEY=YOUR_JINAAI_API_KEY

示例代码片段

获取 Jina AI 的嵌入向量

Jina AI 提供了多种 embedding 模型，用户可以根据自己的需求选择对应的模型使用。

Model	Parameter Size	Embedding Dimension	Text
jina-embeddings-v3	570M	flexible embedding size (Default: 1024)	multilingual text embeddings; supports 94 language in total
jina-embeddings-v2-small-en	33M	512	English monolingual embeddings
jina-embeddings-v2-base-en	137M	768	English monolingual embeddings
jina-embeddings-v2-base-zh	161M	768	Chinese-English Bilingual embeddings
jina-embeddings-v2-base-de	161M	768	German-English Bilingual embeddings
jina-embeddings-v2-base-code	161M	768	English and programming languages

这里以 jina-embeddings-v3 为例，定义一个 generate_embeddings 辅助函数，用于调用 Jina AI 嵌入 API：

import os
import requests
import pyseekdb
from pyseekdb import HNSWConfiguration

JINAAI_API_KEY = os.getenv('JINAAI_API_KEY')

# Step 1. Text data vectorization
def generate_embeddings(text: str):
    JINAAI_API_URL = 'https://api.jina.ai/v1/embeddings'
    JINAAI_HEADERS = {
        'Content-Type': 'application/json',
        'Authorization': f'Bearer {JINAAI_API_KEY}'
    }
    JINAAI_REQUEST_DATA = {
        'input': [text],
        'model': 'jina-embeddings-v3'
    }
    
    response = requests.post(JINAAI_API_URL, headers=JINAAI_HEADERS, json=JINAAI_REQUEST_DATA)
    response_json = response.json()
    return response_json['data'][0]['embedding']
    

TEXTS = [
    'Jina AI offers best-in-class embeddings, reranker and prompt optimizer, enabling advanced multimodal AI.',
    'seekdb Database is an enterprise-level, native distributed database independently developed by the seekdb team. It is cloud-native, highly consistent, and highly compatible with Oracle and MySQL.',
    'seekdb is a native distributed relational database that supports HTAP hybrid transaction analysis and processing. It features enterprise-level characteristics such as high availability, transparent scalability, and multi-tenancy, and is compatible with MySQL/Oracle protocols.'
]
ids = []
embeddings = []
documents = []

for i, text in enumerate(TEXTS):
    # Generate the embedding for the text via Jina AI API.
    embedding = generate_embeddings(text)
    ids.append(f"item{i+1}")
    embeddings.append(embedding)
    documents.append(text)

创建表并将数据存入 seekdb

创建一个名为 jinaai_seekdb_demo_documents 的表，并将向量数据存入 seekdb：

# Step 2. Connect seekdb Serverless
SEEKDB_DATABASE_HOST = os.getenv('SEEKDB_DATABASE_HOST')
SEEKDB_DATABASE_PORT = int(os.getenv('SEEKDB_DATABASE_PORT', 2881)) 
SEEKDB_DATABASE_USER = os.getenv('SEEKDB_DATABASE_USER')
SEEKDB_DATABASE_DB_NAME = os.getenv('SEEKDB_DATABASE_DB_NAME')
SEEKDB_DATABASE_PASSWORD = os.getenv('SEEKDB_DATABASE_PASSWORD')

client = pyseekdb.Client(host=SEEKDB_DATABASE_HOST, port=SEEKDB_DATABASE_PORT, database=SEEKDB_DATABASE_DB_NAME, user=SEEKDB_DATABASE_USER, password=SEEKDB_DATABASE_PASSWORD)
# Step 3. Create the vector table.
table_name = "jinaai_seekdb_demo_documents"
config = HNSWConfiguration(dimension=1024, distance='cosine')  
collection = client.create_collection(
    name=table_name,
    configuration=config,
    embedding_function=None
)

print('- Inserting Data to seekdb...')
collection.add(
    ids=ids,
    embeddings=embeddings,
    documents=documents
)

语义搜索

通过 Jina AI API 生成查询文本的向量，然后根据查询文本的向量与向量表中的每个向量的 cosine 距离，搜索最相关的文档：

# Step 4. Query the most relevant document based on the query.
query = 'What is seekdb?'
# Generate the embedding for the query via Jina AI API.
query_embedding = generate_embeddings(query)

res = collection.query(
    query_embeddings=query_embedding,
    n_results=1
)

print('- The Most Relevant Document and Its Distance to the Query:')
for i, (doc_id, document, distance) in enumerate(zip(
    res['ids'][0], 
    res['documents'][0], 
    res['distances'][0]
)):
    print(f'  - ID: {doc_id}')
    print(f'    content: {document}')
    print(f'    distance: {distance:.6f}')

预期结果

- ID: item2
    content: seekdb Database is an enterprise-level, native distributed database independently developed by the seekdb team. It is cloud-native, highly consistent, and highly compatible with Oracle and MySQL.
    distance: 0.158139

前提条件​

步骤一：获取数据库连接信息​

步骤二：构建您的 AI 助手​

设置 Jina AI API key 环境变量​

示例代码片段​

获取 Jina AI 的嵌入向量​

创建表并将数据存入 seekdb​

语义搜索​

预期结果​

Contents