跳到主要内容

OpenAI

OpenAI 是一家人工智能公司,已开发出多个大语言模型,这些模型在自然语言理解和生成方面表现出色,能够生成文本、回答问题、进行对话等,可以通过 API 对这些模型进行访问。

seekdb 提供了向量类型存储、向量索引、embedding 向量搜索的能力。可以利用 OpenAI 的 API 接口,将向量化后的数据存储在 seekdb,然后使用 seekdb 的向量搜索能力查询相关数据。

前提条件

  • 您已完成部署 seekdb。

  • 您的环境中已存在可以使用的 MySQL 数据库和账号,并已对数据库账号授予读写权限。

  • 安装 python 3.9 及以上版本 和相应 pip

  • 安装 poetrypyobvector、OpenAI SDK。

    python3 pip install poetry
    python3 pip install pyobvector
    python3 pip install openai
  • 准备 OpenAI API 密钥

步骤一:获取 seekdb 连接串

联系 seekdb 部署人员或者管理员获取相应的数据库连接串,例如:

obclient -h$host -P$port -u$user_name -p$password -D$database_name

参数说明:

  • $host:提供 seekdb 连接 IP 地址。

  • $port:提供 seekdb 连接端口,默认是 2881

  • $database_name:需要访问的数据库名称。

    提示

    连接的用户需要拥有该数据库的 CREATEINSERTDROPSELECT 权限。

  • $user_name:提供数据库连接账户。

  • $password:提供账户密码。

示例如下:

obclient -hxxx.xxx.xxx.xxx -P2881 -utest_user001 -p****** -Dtest

步骤二:注册 LLM 平台账号

获取 OpenAI API Key:

  1. 登录 OpenAI 平台。

  2. 在右上角点击 API Keys

  3. 点击 Create API Key

  4. 填写相关信息,点击 Create API Key

配置 OpenAI API Key 到环境变量:

  • 对于基于 Unix 的系统(如 Ubuntu 或 MacOS),你可以在终端中运行以下命令:

    export OPENAI_API_KEY='your-api-key'
  • 对于 Windows 系统,你可以在命令提示符中运行以下命令:

    set OPENAI_API_KEY=your-api-key

请确保将 your-api-key 替换为你的实际 OpenAI API 密钥。

步骤三:存储向量数据到 seekdb

存储向量数据到 seekdb

  1. 准备测试数据

    下载预先计算好向量化数据的 CSV 文件,这个 CSV 文件中包含 1000 条美食评论数据集,最后一列是向量化之后的值,所以不需要再计算向量。 也可以使用下面的代码对 embedding 列(即向量列)重新计算,生成新的 CSV 文件。

    from openai import OpenAI
    import pandas as pd
    input_datapath = "./fine_food_reviews.csv"
    client = OpenAI()
    # 这里使用 text-embedding-ada-002 嵌入模型,可以根据需要调整
    def embedding_text(text, model="text-embedding-ada-002"):
    # 创建 embedding 向量的方法可参考:https://community.openai.com/t/embeddings-api-documentation-needs-to-updated/475663
    res = client.embeddings.create(input=text, model=model)
    return res.data[0].embedding
    df = pd.read_csv(input_datapath, index_col=0)
    # 实际生成会耗时几分钟,逐行调用 OpenAI Embedding API
    df["embedding"] = df.combined.apply(embedding_text)
    output_datapath = './fine_food_reviews_self_embeddings.csv'
    df.to_csv(output_datapath)
  2. 运行下面的脚本,将测试数据插入 seekdb,脚本所在的目录需要和测试数据所在的目录相同。

    import os
import sys
import csv
import json
from pyobvector import *
from sqlalchemy import Column, Integer, String
# 使用 pyobvector 连接 OB,用户名和密码中如果有@符号用%40代替
client = ObVecClient(uri="host:port", user="username",password="****",db_name="test")
# 事先准备的测试数据集,已进行了向量化,默认放在 python 脚本相同的目录下,如果是自己重新向量化的,需要替换为对应的文件
file_name = "fine_food_reviews.csv"
file_path = os.path.join("./", file_name)
# 定义列,向量化的列放在了最后一个字段
cols = [
Column('id', Integer, primary_key=True, autoincrement=False),
Column('product_id', String(256), nullable=True),
Column('user_id', String(256), nullable=True),
Column('score', Integer, nullable=True),
Column('summary', String(2048), nullable=True),
Column('text', String(8192), nullable=True),
Column('combined', String(8192), nullable=True),
Column('n_tokens', Integer, nullable=True),
Column('embedding', VECTOR(1536))
]
# 表名
table_name = 'fine_food_reviews'
# 如果表不存在就创建表
if not client.check_table_exists(table_name):
client.create_table(table_name,columns=cols)
# 为向量列创建索引
client.create_index(
table_name=table_name,
is_vec_index=True,
index_name='vidx',
column_names=['embedding'],
vidx_params='distance=l2, type=hnsw, lib=vsag',
)
# 打开并读取 CSV 文件
with open(file_name, mode='r', newline='', encoding='utf-8') as csvfile:
csvreader = csv.reader(csvfile)
# 读取标题行
headers = next(csvreader)
print("Headers:", headers)
batch = [] # 存储数据,每10行插入一次到数据库
for i, row in enumerate(csvreader):
# CSV 文件有9个字段: id,product_id,user_id,score,summary,text,combined,n_tokens,embedding
if not row:
break
food_review_line= {'id':row[0],'product_id':row[1],'user_id':row[2],'score':row[3],'summary':row[4],'text':row[5],\
'combined':row[6],'n_tokens':row[7],'embedding':json.loads(row[8])}
batch.append(food_review_line)
# 每 10 行插入一次
if (i + 1) % 10 == 0:
client.insert(table_name,batch)
batch = [] # 清空缓存
# 插入剩余的行(如果有)
if batch:
client.insert(table_name,batch)
# 检查表中的数据,确保所有的数据已经插入
count_sql = f"select count(*) from {table_name};"
cursor = client.perform_raw_text_sql(count_sql)
result = cursor.fetchone()
print(f"导入数据总条数:{result[0]}")

查询 seekdb 数据

  1. 保存以下 python 脚本,命名为 openAIQuery.py

        import os
    import sys
    import csv
    import json
    from pyobvector import *
    from sqlalchemy import func
    from openai import OpenAI
    # 获取命令行参数
    if len(sys.argv) != 2:
    print("请输入一个查询语句。")
    sys.exit()
    queryStatement = sys.argv[1]
    # 使用pyobvector连接OB,用户名和密码中如果有@符号用%40代替
    client = ObVecClient(uri="host:port", user="usename",password="****",db_name="test")
    openAIclient = OpenAI()
    # 定义生成文本向量的函数
    def generate_embeddings(text, model="text-embedding-ada-002"):
    # 创建 embedding 向量的方法可参考:https://community.openai.com/t/embeddings-api-documentation-needs-to-updated/475663
    res = openAIclient.embeddings.create(input=text, model=model)
    return res.data[0].embedding

    def query_ob(query, tableName, vector_name="embedding", top_k=1):
    embedding = generate_embeddings(query)
    # 执行近似最近邻搜索
    res = client.ann_search(
    table_name=tableName,
    vec_data=embedding,
    vec_column_name=vector_name,
    distance_func=func.l2_distance,
    topk=top_k,
    output_column_names=['combined']
    )
    for row in res:
    print(str(row[0]).replace("Title: ", "").replace("; Content: ", ": "))
    # 表名
    table_name = 'fine_food_reviews'
    query_ob(queryStatement,table_name,'embedding',1)
  2. 输入问题,输出相关答案。

    python3 openAIQuery.py 'pet food'

    预期结果如下:

    Crack for dogs.: These thing are like crack for dogs. I am not sure of the make-up but the doggies sure love them.