跳到主要内容

seekdb Vector 与 LlamaIndex 集成

seekdb 提供了向量类型存储、向量索引、embedding 向量搜索的能力。可以将向量化后的数据存储在 seekdb,供下一步的搜索使用。

LlamaIndex 是一个使用 LLM(包括代理和工作流)构建上下文增强生成 AI 应用程序的框架。它提供了数据连接器、数据索引、代理、可观察性/评估集成和工作流等能力。

本教程结合通义千问 API,演示如何将 seekdb 中的向量搜索功能、通义千问与 LlamaIndex 集成实现文档问答。

前提条件

  • 您已完成部署 seekdb 数据库。

    • 您的环境中已存在可以使用的数据库和账号,并已对数据库账号授读写权限。
    • 您可以设置 ob_vector_memory_limit_percentage 配置项,以启用向量搜索功能。推荐保持默认值 0(自适应模式)。如需更精确设置此配置项,请参考相关配置文档。
  • 安装 Python 3.9 及以上版本。

  • 安装 所需的依赖项:

    python3 -m pip install llama-index-vector-stores-oceanbase llama-index
    python3 -m pip install llama-index-embeddings-dashscope
    python3 -m pip install llama-index-llms-dashscope
  • 准备通义千问 API 密钥。

步骤一:获取数据库连接信息

联系 seekdb 数据库部署人员或者管理员获取相应的数据库连接串,例如:

obclient -h$host -P$port -u$user_name -p$password -D$database_name

参数说明:

  • $host:提供 seekdb 数据库连接 IP。

  • $port:提供 seekdb 数据库连接端口。默认是 2881,可在部署时自定义。

  • $database_name:需要访问的数据库名称。

    注意

    连接数据库的用户需要拥有该数据库的 CREATEINSERTDROPSELECT 权限。更多有关用户权限的信息,请参见 MySQL 模式下的权限分类

  • $user_name:提供数据库连接账户,格式:用户名

  • $password:提供账户密码。

更多连接串的信息,请参见 通过 OBClient 连接 OceanBase

步骤二:构建您的 AI 助手

设置通义千问 API key 环境变量

获取 通义千问 API 密钥配置API-KEY到环境变量

export DASHSCOPE_API_KEY="YOUR_DASHSCOPE_API_KEY"

下载示例数据

mkdir -p '/root/llamaindex/paul_graham/'
wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/paul_graham/paul_graham_essay.txt' -O '/root/llamaindex/paul_graham/paul_graham_essay.txt'

加载数据文本

import os
from pyobvector import ObVecClient
from llama_index.core import Settings
from llama_index.embeddings.dashscope import DashScopeEmbedding
from llama_index.core import (
SimpleDirectoryReader,
load_index_from_storage,
VectorStoreIndex,
StorageContext,
)
from llama_index.vector_stores.oceanbase import OceanBaseVectorStore
from llama_index.llms.dashscope import DashScope, DashScopeGenerationModels
#set ob client
client = ObVecClient(uri="127.0.0.1:2881", user="root@test",password="",db_name="test")
# Global Settings
Settings.embed_model = DashScopeEmbedding()
# config llm model
dashscope_llm = DashScope(
model_name=DashScopeGenerationModels.QWEN_MAX,
api_key=os.environ.get("DASHSCOPE_API_KEY", ""),
)
# load documents
documents = SimpleDirectoryReader("/root/llamaindex/paul_graham/").load_data()
oceanbase = OceanBaseVectorStore(
client=client,
dim=1536,
drop_old=True,
normalize=True,
)

storage_context = StorageContext.from_defaults(vector_store=oceanbase)
index = VectorStoreIndex.from_documents(
documents, storage_context=storage_context
)

向量搜索

此步骤演示如何从文档 paul_graham_essay.txt 中查询 “What did the author do growing up?”

# set Logging to DEBUG for more detailed outputs
query_engine = index.as_query_engine(llm=dashscope_llm)
res = query_engine.query("What did the author do growing up?")
res.response

预期结果:

'Growing up, the author worked on writing and programming outside of school. In terms of writing, he wrote short stories, which he now considers to be awful, as they had very little plot and focused mainly on characters with strong feelings. For programming, he started in 9th grade by trying to write programs on an IBM 1401 at his school, using an early version of Fortran. Later, after getting a TRS-80 microcomputer, he began to write more practical programs, including simple games, a program to predict the flight height of model rockets, and a word processor that his father used for writing.'