LOAD DATA
描述
该语句用于从外部导入数据。
-
seekdb
LOAD DATA语句支持加载以下输入文件:-
服务器端(seekdb 节点)文件:文件位于 seekdb 的节点上。可以使用
LOAD DATA INFILE语句或LOAD DATA FROM URL语句,将服务器端文件中加载数据到数据库表中。 -
客户端(本地)文件:文件位于客户端本地文件系统中。可以使用
LOAD DATA LOCAL INFILE语句或LOAD DATA FROM URL语句,将客户端本地文件中的数据加载到数据库表中。信息seekdb 在执行
LOAD DATA LOCAL INFILE命令时,系统会自动添加IGNORE选项。 -
OSS 文件:文件位于 OSS 文件系统。可以使用
LOAD DATA REMOTE_OSS INFILE语句,将 OSS 文件中的数据加载到数据库表中。
-
-
LOAD DATA 目前可以对 CSV 格式的文本文件进行导入,整个导入的过程可以分为以下的流程:
-
解析文件:seekdb 会根据用户输入的文件名,读取文件中的数据,并且根据指定的并行度来决定并行或者串行解析输入文件中的数据。
-
插入数据:当 seekdb 收到数据后,在本地执行
INSERT操作将数据插入到对应的分区当中。
-
注意事项
-
带有触发器(Trigger)的表禁止使用
LOAD DATA语句。 -
要从外部文件导入数据,您需要具有
FILE权限及以下设置:- 加载服务器端文件时,需要提前设置系统变量 secure_file_priv,配置导入或导出文件时可以访问的路径。
- 加载客户端本地文件时,需要在启动 MySQL 客户端时添加
--local-infile[=1]选项来启用从本地文件系统加载数据的功能。
-
使用指定分区旁路导入时需要注意,目标表不能是复制表,且不能含有自增列、标识列、Global Index。
语法
-- 导入普通文件
LOAD DATA
[/*+ PARALLEL(N) [load_batch_size(M)] [APPEND | direct(bool, int, [load_mode])] | NO_DIRECT */]
[REMOTE_OSS | LOCAL] INFILE 'file_name'
[REPLACE | IGNORE]
INTO TABLE table_name [PARTITION(PARTITION_OPTION)]
[COMPRESSION [=] {AUTO|NONE|GZIP|DEFLATE|ZSTD}]
[{FIELDS | COLUMNS}
[TERMINATED BY 'string']
[[OPTIONALLY] ENCLOSED BY 'char']
[ESCAPED BY 'char']
]
[LINES
[STARTING BY 'string']
[TERMINATED BY 'string']
]
[IGNORE number {LINES | ROWS}]
[(column_name_var
[, column_name_var] ...)]
load_mode:
'full'
| 'inc_replace'
PARTITION_OPTION:
partition_option_list
| subpartition_option_list
-- 导入 URL 文件
LOAD DATA
[/*+ PARALLEL(N) [load_batch_size(M)] [APPEND | direct(bool, int, [load_mode])] | NO_DIRECT */]
[REPLACE | IGNORE]
FROM { url_table_function_expr |
( SELECT expression_list FROM url_table_function_expr ) }
INTO TABLE table_name
[PARTITION(PARTITION_OPTION)]
[(column_name_var [, column_name_var] ...)]
[LOG ERRORS [REJECT LIMIT {integer | UNLIMITED}]]
load_mode:
'full'
| 'inc_replace'
url_table_function_expr:
FILES (
LOCATION = '<string>',
{
FORMAT = (
TYPE = 'CSV',
LINE_DELIMITER = '<string>' | <expr>,
FIELD_DELIMITER = '<string>' | <expr>,
PARSE_HEADER = { TRUE | FALSE },
ESCAPE = '<character>' | <expr>,
FIELD_OPTIONALLY_ENCLOSED_BY = '<character>' | <expr>,
ENCODING = 'charset',
NULL_IF = ('<string>' | <expr>, '<string>' | <expr> ...),
SKIP_HEADER = <int>,
SKIP_BLANK_LINES = { TRUE | FALSE },
TRIM_SPACE = { TRUE | FALSE },
EMPTY_FIELD_AS_NULL = { TRUE | FALSE }
)
| FORMAT = ( TYPE = 'PARQUET' | 'ORC' )
},
[PATTERN = '<regex_pattern>']
)
| SOURCE (
TYPE = 'ODPS',
ACCESSID = '<string>',
ACCESSKEY = '<string>',
ENDPOINT = '<string>',
TUNNEL_ENDPOINT = '<string>',
PROJECT_NAME = '<string>',
SCHEMA_NAME = '<string>',
TABLE_NAME = '<string>',
QUOTA_NAME = '<string>',
COMPRESSION_CODE = '<string>'
)
PARTITION_OPTION:
partition_option_list
| subpartition_option_list
参数解释
| 参数 | 描述 |
|---|---|
| parallel(N) | 加载数据的并行度,默认为 4。 |
| load_batch_size(M) | 指定每次插入的批量大小,M 默认为 100。推荐取值范围为 [100,1000]。 |
| APPEND | direct() |NO_DIRECT | 使用 Hint 启用旁路导入功能。 注意在执行旁路导入任务的过程中,不建议同时进行 seekdb 的升级操作,因为这可能导致旁路导入任务失败。
LOAD DATA 旁路导入的信息,参见 使用 LOAD DATA 语句旁路导入数据/文件。 |
| REMOTE_OSS | LOCAL | 可选项,
|
| file_name | 指定输入文件的路径和文件名。 file_name 有以下格式:
说明 在导入 OSS 上的文件时,需要确保以下信息:
|
| REPLACE | IGNORE | 如果遇到唯一键冲突,REPLACE 表示覆盖冲突行,IGNORE 表示忽略冲突行。LOAD DATA 通过表的主键来判断数据是否重复,如果表不存在主键,则 REPLACE 与 IGNORE 选项没有区别。缺省时,遇到重复数据的时候,LOAD DATA 会将出现错误的数据记录到日志文件中。 注意
|
| url_table_function_expr | 可选项,通过 FILES 和 SOURCE 两个关键字从文件系统或数据源读取数据。 |
| table_name | 导入数据的表的名称。
|
| PARTITION_OPTION | 指定分区旁路导入时的分区名:
说明 指定分区只支持旁路导入,不支持普通的 LOAD DATA,即如果没添加旁路导入的 Hint 或者没有设置旁路导入的配置项,执行 LOAD DATA 时指定分区是不生效的。 |
| COMPRESSION | 指定压缩文件格式,其中
|
| FIELDS | COLUMNS | 指定字段的格式。
|
| LINES STARTING BY | 指定行起始符。 |
| LINES TERMINATED BY | 指定行结束符。 |
| IGNORE number { LINES | ROWS } | 忽略前几行,LINES 表示文件的前几行,ROWS 表示由字段分隔符指定的前几行数据。缺省时,会将输入文件中的字段逐个与表中的列进行对应。如果输入文件中并没有包含所有的列,那么缺少的列按照以下的规则会被默认填充:
说明多文件导入时,与单文件导入行为同理。 |
| column_name_var | 可选项,指定导入的列名。 |
| LOG ERRORS [REJECT LIMIT {integer | UNLIMITED}] | 可选项,用于开启导入 URL 外表过程中的错误诊断。详细介绍,可参见下文 log_errors。 说明 seekdb 中 LOAD DATA 语句导入 URL 外表语法,支持指定错误诊断。 |
FILES
FILES 关键字由 LOCATION 子句、 FORMAT 子句和 PATTERN 子句构成。
-
LOCATION子句用于指定外表文件存放的路径。通常外表的数据文件存放于单独一个目录中,文件夹中可以包含子目录,在创建表时,外表会自动收集该目录中的所有文件。-
本地 LOCATION 格式为
LOCATION = '[file://] local_file_path',其中local_file_path可以为相对路径,也可以为绝对路径。如果填写的是相对路径,则当前目录必须为 seekdb 的安装目录;secure_file_priv用于配置 seekdb 节点有权限访问的文件路径。local_file_path只能是secure_file_priv路径的子路径。 -
远程 Location 格式如下:
LOCATION = '{oss|cos|S3}://$ACCESS_ID:$ACCESS_KEY@$HOST:s3_region/remote_file_path',其中$ACCESS_ID、$ACCESS_KEY和$HOST为访问 OSS、COS 和 S3 所需配置的访问信息,s3_region为使用 S3 时选择的区域信息,这些敏感的访问信息会以加密的方式存放在数据库的系统表中LOCATION = 'hdfs://$ {hdfs_namenode_address}:${port}/PATH.localhost'而port指的是 HDFS 的端口号,PATH指 HDFS 中的目录路径。- 带 kerberos 认证:
LOCATION = 'hdfs://localhost:port/user?principal=xxx&keytab=xxx&krb5conf=xxx&configs=xxx'。 其中:principal: 指登录认证用户。keytab:指定用户认证的密钥文件路径。krb5conf:指定用户使用 kerberos 环境的描述文件路径。configs: 指定额外的 HDFS 配置项,默认为空,但是如果是 kerberos 环境,则 通常该配置项有值,需要进行配置,例如:dfs.data.transfer.protection=authentication,privacy,指定数据传输保护级别为authentication和privacy。
- 带 kerberos 认证:
提示使用对象存储路径时,对象存储路径的各项参数由
&符号进行分隔,请确保您输入的参数值中仅包含英文字母大小写、数字、\/-_$+=以及通配符。如果您输入了上述以外的其他字符,可能会导致设置失败。
-
-
FORMAT子句用于指定读取文件格式相关的属性,支持 CSV/PARQUET/ORC 三种文件格式。-
当 TYPE = 'CSV' 时,包含以下字段:
LINE_DELIMITER:指定 CSV 文件的行分隔符,默认为LINE_DELIMITER='\n'。FIELD_DELIMITER:可选项,指定 CSV 文件的列分隔符,默认为FIELD_DELIMITER='\t'。PARSE_HEADER:可选项,指定 CSV 文件的第一行是否为每列的列名。默认为FALSE,表示不指定 CSV 文件的第一行为每列的列 名。ESCAPE:指定 CSV 文件的转义符号,只能为 1 个字节,默认为ESCAPE ='\'。FIELD_OPTIONALLY_ENCLOSED_BY:可选项,指定 CSV 文件中包裹字段值的符号,默认为空。使用此选项表示只对部分类型的字段(如 CHAR, VARCHAR, TEXT, JSON 等)加包裹符。ENCODING:指定文件的字符集编码格式,如果不指定,默认值为UTF8MB4。NULL_IF:指定被当作NULL处理的字符串。默认值为空。SKIP_HEADER:跳过文件头,并指定跳过的行数。SKIP_BLANK_LINES:指定是否跳过空白行。默认值为FALSE,表示不跳过空白的行。TRIM_SPACE:指定是否删除文件中字段的头部和尾部空格。默认值为FALSE,表示不删除文件中字段头尾的空格。EMPTY_FIELD_AS_NULL:指定是否将空字符串当作NULL处理。默认值为FALSE,表示不将空字符串当做NULL处理。
-
当 TYPE = 'PARQUET/ORC' 时,无其他额外字段。
-
-
PATTERN子句指定一个正则模式串,用于过滤LOCATION目录下的文件。对于每个 LOCATION 目录下的文件路径,如果能够匹配该模式串,外表会访问这个文件,否则外表会跳过这个文件。如果不指定该参数,则默认可以访问LOCATION目录下的所有文件。
SOURCE
SOURCE 关键字不包 含其他子句,此时 TYPE = 'ODPS' 且有以下字段:
ACCESSID:指定 ODPS 用户的 ID。ACCESSKEY:指定 ODPS 用户的密码。ENDPOINT:指定 ODPS 服务的连接地址。TUNNEL_ENDPOINT:指定 Tunnel 数据传输服务的连接地址。PROJECT_NAME:指定需要查询的表所在的 Project。SCHEMA_NAME:可选项,指定需要查询表的 SCHEMA。TABLE_NAME:指定需要查询的表名。QUOTA_NAME:可选项,选择是否使用指定的 Quota。COMPRESSION_CODE:可选项,指定数据源的压缩格式,支持ZLIB、ZSTD、LZ4、ODPS_LZ4四种压缩格式,不设置表示不开启压缩。
log_errors
-
LOG ERRORS:表示开启导入过程中的错误诊断,允许将失败的行记录下来(当前版本记录于warning buffer中,可以通过show warnings查看,最大不超过 64 行),而不是让整个操作因第一个错误而终止。配合REJECT LIMIT子句,可以控制允许的错误行数。 -
REJECT LIMIT: 可选项,用于设置允许的最大错误行数:- 默认值为 0:表示不允许任何错误行,遇到第一个错误时操作失败。
integer:单机允许的最大错误行数。例如,10 表示一台机器上遇到的错误最多为 10 行。UNLIMITED: 允许 无限数量的错误行。
- 不指定
LOG ERRORS子句行为为正常导入行为,即遇到第一个错误就直接报错。 - 指定了
LOG ERRORS子句但是没有指定REJECT LIMIT子句, 相当于指定了LIMIT为 0 的诊断,会在遇到第一个错误时操作失败,但是会记录遇到的第一个错误,并且错误码也是诊断相关错误,即 “reject limit reached”。
多文件旁路导入时通配符的规则
为便于多文件导入,引入文件通配符功能,适用于服务器端和 OSS 文件导入,不适用于客户端文件导入。
-
服务器端通配符使用
-
匹配规则:
-
匹配文件名:
load data /*+ parallel(20) direct(true, 0) */ infile '/xxx/test.*.csv' replace into table t1 fields terminated by '|'; -
匹配目录:
load data /*+ parallel(20) direct(true, 0) */ infile '/aaa*bb/test.1.csv' replace into table t1 fields terminated by '|'; -
同时匹配目录和文件名:
load data /*+ parallel(20) direct(true, 0) */ infile '/aaa*bb/test.*.csv' replace into table t1 fields terminated by '|';
-
-
注意事项:
-
必须存在至少一个匹配的文件,否则返回错误码 4027。
-
对
load data /*+ parallel(20) direct(true, 0) */ infile '/xxx/test.1*.csv,/xxx/test.6*.csv' replace into table t1 fields terminated by '|';的输入,/xxx/test.1*.csv,/xxx/test.6*.csv会被认为是整体匹配,若无匹配则报错 4027。 -
只支持 POSIX 的 GLOB 函数能支持的通配符,例如
test.6*(6|0).csv和test.6*({0.csv,6.csv}|.csv)尽管可通过ls命令查找,但 GLOB 函数无法匹配,会报错 4027。
-
-
-
云对象存储服务(
OSS)中通配符使用-
匹配规则:
匹配文件名:
load data /*+ parallel(20) direct(true, 0) */ remote_oss infile 'oss://xxx/test.*.csv?host=xxx&access_id=xxx&access_key=xxx' replace into table t1 fields terminated by '|'; -
注意事项:
-
不支持目录匹配。例如:
load data /*+ parallel(20) direct(true, 0) */ remote_oss infile 'oss://aa*bb/test.*.csv?host=xxx&access_id=xxx&access_key=xxx' replace into table t1 fields terminated by '|';会返回OB_NOT_SUPPORTED。 -
文件名通配符只支持
*和?。其他通配符虽然允许输入,但无法匹配任何结果。
-
-
示例
LOAD DATA 加载数据时支持使用 \N 代表 NULL。
从服务器端文件导入数据
示例 1:服务器端文件导入数据。
-
设置全局安全路径。
SET GLOBAL secure_file_priv = "/"
Query OK, 0 rows affected
obclinet> \q
Bye信息GLOBAL变量,所以需要执行\q退出使之生效。 -
重连数据库后,从外部文件导入数据。
LOAD DATA INFILE 'test.sql' INTO TABLE t1;
Query OK, 0 rows affected
示例 2:使用 APPEND Hint 启用旁路导入功能。
LOAD DATA /*+ PARALLEL(4) APPEND */
INFILE '/home/admin/a.csv'
INTO TABLE t;
示例 3:导入 CSV 格式文件。
-
导入
test1.csv文件的全部列。load data /*+ direct(true,0) parallel(2)*/
from files(
location = "data/csv",
format = (
type = 'csv',
field_delimiter = ',',
parse_header = true,
skip_blank_lines = true
),
pattern = 'test1.csv')
into table t1; -
读取
data/csv路径下的test1.csv文件的c1、c2列,并将它们导入到表t1的col1、col2列中。load data /*+ direct(true,0) parallel(2)*/
from (
select c1, c2 from files(
location = 'data/csv'
format = (
type = 'csv',
field_delimiter = ',',
parse_header = true,
skip_blank_lines = true
),
pattern = 'test1.csv'))
into table t1 (col1, col2);
示例 4:导入 PARQUET 格式文件。
load data /*+ direct(true,0) parallel(2)*/
from files(
location = "data/parquet",
format = ( type = 'PARQUET'),
pattern = 'test1.parquet')
into table t1;
示例 5:导入 ORC 格式文件。
load data /*+ direct(true,0) parallel(2)*/
from files(
location = "data/orc",
format = ( type = 'ORC'),
pattern = 'test1.orc')
into table t1;
示例 5:导入 ODPS 格式文件。
load data /*+ direct(true,0) parallel(2)*/
from source (
type = 'ODPS',
accessid = '$ODPS_ACCESSID',
accesskey = '******',
endpoint= '$ODPS_ENDPOINT',
project_name = 'example_project',
schema_name = '',
table_name = 'example_table',
quota_name = '',
compression_code = '')
into table t1;
从客户端(本地)文件导入数据
示例 1:从本地文件导入数据至 seekdb 表中。
-
打开终端或命令提示符窗口,并输入以下命令来启动客户端。
mysql -h127.0.0.1 -uroot -P2881 -p****** -A -Dtest返回结果如下:
Welcome to the MariaDB monitor. Commands end with ; or \g.
Your MySQL connection id is 3221504802
Server version: 5.7.25 OceanBase 4.3.5.3 SeekDB (r1.0.0.0) (Built 100000262025111218-5343637512e28c346f938516af53b7879d4d5974 Nov 12 2025)
Copyright (c) 2000, 2018, Oracle, MariaDB Corporation Ab and others.
Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.
MySQL [(none)]> -
在客户端中,执行
LOAD DATA LOCAL INFILE语句来加载本地数据文件。LOAD DATA LOCAL INFILE '/home/admin/test_data/tbl1.csv' INTO TABLE tbl1 FIELDS TERMINATED BY ',';返回结果如下:
Query OK, 3 rows affected
Records: 3 Deleted: 0 Skipped: 0 Warnings: 0
示例 2:通过设置 COMPRESSION 直接导入压缩文件。
LOAD DATA LOCAL INFILE '/your/file/lineitem.tbl.gz'
INTO TABLE lineitem
COMPRESSION GZIP
FIELDS TERMINATED BY '|';
示例 3:通过 PARTITION 指定分区旁路导入。
- 指定一级分区旁路导入
load data /*+ direct(true,0) parallel(2) load_batch_size(100) */
infile "$FILE_PATH"
into table t1 partition(p0, p1)
fields terminated by '|' enclosed by '' lines starting by '' terminated by '\n';
- 指定二级分区旁路导入
load data /*+ direct(true,0) parallel(2) load_batch_size(100) */
infile "$FILE_PATH"
into table t1 partition(p0sp0, p1sp1)
fields terminated by '|' enclosed by '' lines starting by '' terminated by '\n';
从 OSS 文件导入数据
示例 1:使用 direct(bool, int) Hint 启用旁路导入功能,旁路导入文件可在 OSS 上。
load data /*+ parallel(1) direct(false,0)*/ remote_oss infile 'oss://antsys-oceanbasebackup/backup_rd/xiaotao.ht/lineitem2.tbl?host=***.oss-cdn.***&access_id=***&access_key=***' into table lineitem fields terminated by '|' enclosed by '' lines starting by '' terminated by '\n';
从服务器端文件以 URL 外表方式导入数据
示例中涉及 IP 的命 令做了脱敏处理,在验证时应根据自己机器真实 IP 填写。
以下将以外部文件的位置在本地和在 seekdb中创建外表为例,步骤如下:
-
准备外部文件。
执行以下命令,在要登录 seekdb 节点所在机器的
/home/admin/test_csv目录下,创建文件column_conv.csv。vi column_conv.csv文件的内容如下:
1,short,short
2,long_text,long_text
3,long_text,long_text -
设置导入的文件路径。
提示由于安全原因,设置系统变量
secure_file_priv时,只能通过本地 Unix Socket 连接数据库执行修改该全局变量的 SQL 语句。更多信息,参见 secure_file_priv。-
执行以下命令,登录到 seekdb 所在的机器。
ssh admin@10.10.10.1 -
执行以下命令,通过本地 Unix Socket 连接方式连接租户
mysql001。mysql -S /home/admin/oceanbase/run/sql.sock -uroot -p****** -
执行以下 SQL 命令,设置导入路径为
/home/admin/test_csv。SET GLOBAL secure_file_priv = "/home/admin/test_csv";
-
-
重新连接 seekdb。
示例如下:
mysql -h127.0.0.1 -uroot -P2881 -p****** -A -Ddb_test -
创建表
test_tbl1。CREATE TABLE test_tbl1(col1 VARCHAR(5), col2 VARCHAR(5), col3 VARCHAR(5)); -
使用
LOAD DATA语句导入 URL 外表语法向表test_tbl1导入数据,并指定错误诊断。LOAD DATA FROM FILES(
LOCATION = '/home/admin/test_csv',
FORMAT = (
TYPE = 'csv',
FIELD_DELIMITER = ','),
PATTERN = 'column_conv.csv')
INTO TABLE test_tbl1
LOG ERRORS REJECT LIMIT UNLIMITED;返回结果如下:
Query OK, 1 row affected, 2 warnings
Records: 1 Deleted: 0 Skipped: 0 Warnings: 2 -
查看 Warnings。
SHOW warnings;返回结果如下:
+---------+------+----------------------------------------------------------------------------------------------------------------------+
| Level | Code | Message |
+---------+------+----------------------------------------------------------------------------------------------------------------------+
| Warning | 1406 | fail to scan file column_conv.csv at line 2 for column "db_test"."test_tbl1"."col2", error: Data too long for column |
| Warning | 1406 | fail to scan file column_conv.csv at line 3 for column "db_test"."test_tbl1"."col2", error: Data too long for column |
+---------+------+----------------------------------------------------------------------------------------------------------------------+
2 rows in set (0.001 sec) -
查看
test_tbl1的数据。SELECT * FROM test_tbl1;返回结果如下:
+------+-------+-------+
| col1 | col2 | col3 |
+------+-------+-------+
| 1 | short | short |
+------+-------+-------+
1 row in set (0.001 sec)
相关文档
- 更多有关连接 seekdb 的信息,请参见 连接方式概述。
- 更多有关使用
LOAD DATA语句的示例信息,请参见 使用 LOAD DATA 语句导入数据 - 更多有关使用
LOAD DATA旁路导入的示例信息,请参见 使用 LOAD DATA 语句旁路导入数据