OpenAI
OpenAI 是一家人工智能公司,已开发出多个大语言模型,这些模型在自然语言理解和生成方面表现出色,能够生成文本、回答问题、进行对话等,可以通过 API 对这些模型进行访问。
seekdb 提供了向量类型存储、向量索引、embedding 向量搜索的能力。可以利用 OpenAI 的 API 接口,将向量化后的数据存储在 seekdb,然后使用 seekdb 的向量搜索能力查询相关数据。
前提条件
-
您已完成部署 seekdb。
-
您的环境中已存在可以使用的 MySQL 数据库和账号,并已对数据库账号授予读写权限。
-
安装 python 3.9 及以上版本 和相应 pip。
-
安装 poetry、pyobvector、OpenAI SDK。
python3 pip install poetry
python3 pip install pyobvector
python3 pip install openai -
准备 OpenAI API 密钥。
步骤一:获取 seekdb 连接串
联系 seekdb 部署人员或者管理员获取相应的数据库连接串,例如:
obclient -h$host -P$port -u$user_name -p$password -D$database_name
参数说明:
-
$host:提供 seekdb 连接 IP 地址。 -
$port:提供 seekdb 连接端口,默认是2881。 -
$database_name:需要访问的数据库名称。提示连接的用户需要拥有该数据库的
CREATE、INSERT、DROP和SELECT权限。 -
$user_name:提供数据库连接账户。 -
$password:提供账户密码。
示例如下:
obclient -hxxx.xxx.xxx.xxx -P2881 -utest_user001 -p****** -Dtest
步骤二:注册 LLM 平台账号
获取 OpenAI API Key:
-
登录 OpenAI 平台。
-
在右上角点击 API Keys。
-
点击 Create API Key。
-
填写相关信息,点击 Create API Key。
配置 OpenAI API Key 到环境变量:
-
对于基于 Unix 的系统(如 Ubuntu 或 MacOS),你可以在终端中运行以 下命令:
export OPENAI_API_KEY='your-api-key' -
对于 Windows 系统,你可以在命令提示符中运行以下命令:
set OPENAI_API_KEY=your-api-key
请确保将 your-api-key 替换为你的实际 OpenAI API 密钥。
步骤三:存储向量数据到 seekdb
存储向量数据到 seekdb
-
准备测试数据
下载预先计算好向量化数据的 CSV 文件,这个 CSV 文件中包含 1000 条美食评论数据集,最后一列是向量化之后的值,所以不需要再计算向量。 也可以使用下面的代码对 embedding 列(即向量列)重新计算,生成新的 CSV 文件。
from openai import OpenAI
import pandas as pd
input_datapath = "./fine_food_reviews.csv"
client = OpenAI()
# 这里使用 text-embedding-ada-002 嵌入模型,可以根据需要调整
def embedding_text(text, model="text-embedding-ada-002"):
# 创建 embedding 向量的方法可参考:https://community.openai.com/t/embeddings-api-documentation-needs-to-updated/475663
res = client.embeddings.create(input=text, model=model)
return res.data[0].embedding
df = pd.read_csv(input_datapath, index_col=0)
# 实际生成会耗时几分钟,逐行调用 OpenAI Embedding API
df["embedding"] = df.combined.apply(embedding_text)
output_datapath = './fine_food_reviews_self_embeddings.csv'
df.to_csv(output_datapath) -
运行下面的脚本,将测试数据插入 seekdb,脚本所在的目录需要和测试数据所在的目录相同。
import os
import sys
import csv
import json
from pyobvector import *
from sqlalchemy import Column, Integer, String
# 使用 pyobvector 连接 OB,用户名和密码中如果有@符号用%40代替
client = ObVecClient(uri="host:port", user="username",password="****",db_name="test")
# 事先准备的测试数据集,已进行了向量化,默认放在 python 脚本相同的目录下,如果是自己重新向量化的,需要替换为对应的文件
file_name = "fine_food_reviews.csv"
file_path = os.path.join("./", file_name)
# 定义列,向量化的列放在了最后一个字段
cols = [
Column('id', Integer, primary_key=True, autoincrement=False),
Column('product_id', String(256), nullable=True),
Column('user_id', String(256), nullable=True),
Column('score', Integer, nullable=True),
Column('summary', String(2048), nullable=True),
Column('text', String(8192), nullable=True),
Column('combined', String(8192), nullable=True),
Column('n_tokens', Integer, nullable=True),
Column('embedding', VECTOR(1536))
]
# 表名
table_name = 'fine_food_reviews'
# 如果表不存在就创建表
if not client.check_table_exists(table_name):
client.create_table(table_name,columns=cols)
# 为向量列创建索引
client.create_index(
table_name=table_name,
is_vec_index=True,
index_name='vidx',
column_names=['embedding'],
vidx_params='distance=l2, type=hnsw, lib=vsag',
)
# 打开并读取 CSV 文件
with open(file_name, mode='r', newline='', encoding='utf-8') as csvfile:
csvreader = csv.reader(csvfile)
# 读取标题行
headers = next(csvreader)
print("Headers:", headers)
batch = [] # 存储数据,每10行插入一次到数据库
for i, row in enumerate(csvreader):
# CSV 文件有9个字段: id,product_id,user_id,score,summary,text,combined,n_tokens,embedding
if not row:
break
food_review_line= {'id':row[0],'product_id':row[1],'user_id':row[2],'score':row[3],'summary':row[4],'text':row[5],\
'combined':row[6],'n_tokens':row[7],'embedding':json.loads(row[8])}
batch.append(food_review_line)
# 每 10 行插入一次
if (i + 1) % 10 == 0:
client.insert(table_name,batch)
batch = [] # 清空缓存
# 插入剩余的行(如果有)
if batch:
client.insert(table_name,batch)
# 检查表中的数据,确保所有的数据已经插入
count_sql = f"select count(*) from {table_name};"
cursor = client.perform_raw_text_sql(count_sql)
result = cursor.fetchone()
print(f"导入数据总条数:{result[0]}")
查询 seekdb 数据
-
保存以下 python 脚本,命名为
openAIQuery.py。import os
import sys
import csv
import json
from pyobvector import *
from sqlalchemy import func
from openai import OpenAI
# 获取命令行参数
if len(sys.argv) != 2:
print("请输入一个查询语句。")
sys.exit()
queryStatement = sys.argv[1]
# 使用pyobvector连接OB,用户名和密码中如果有@符号用%40代替
client = ObVecClient(uri="host:port", user="usename",password="****",db_name="test")
openAIclient = OpenAI()
# 定义生成文本向量的函数
def generate_embeddings(text, model="text-embedding-ada-002"):
# 创建 embedding 向量的方法可参考:https://community.openai.com/t/embeddings-api-documentation-needs-to-updated/475663
res = openAIclient.embeddings.create(input=text, model=model)
return res.data[0].embedding
def query_ob(query, tableName, vector_name="embedding", top_k=1):
embedding = generate_embeddings(query)
# 执行近似最近邻搜索
res = client.ann_search(
table_name=tableName,
vec_data=embedding,
vec_column_name=vector_name,
distance_func=func.l2_distance,
topk=top_k,
output_column_names=['combined']
)
for row in res:
print(str(row[0]).replace("Title: ", "").replace("; Content: ", ": "))
# 表名
table_name = 'fine_food_reviews'
query_ob(queryStatement,table_name,'embedding',1) -
输入问题,输出相关答案。
python3 openAIQuery.py 'pet food'预期结果如下:
Crack for dogs.: These thing are like crack for dogs. I am not sure of the make-up but the doggies sure love them.