TOKENIZE
描述
该函数用于将文本按照指定的分词器及 Json 形式的参数,输出分词结果。
语法
TOKENIZE('text', ['parser'], ['behavior_ctrl'])
参数解释
| 字段 | 说明 |
|---|---|
| text | 表示文本。支持 TEXT、CHAR 和 VARCHAR 类型的数据。 |
| parser | 表示分词器名称。支持 BENG(基础英文)、NGRAM(中文)、SPACE(空格)、IK(中文)等分词器。 |
| behavior_ctrl | JSON 形式的参数指定,可选配置项如下:
|
示例
使用 TOKENIZE 函数来将字符串 I Love China 分解成单词,并使用 beng 作为分隔符。然后使用 JSON 格式的参数来设置输出选项。
SELECT TOKENIZE('I Love China','beng', '[{"output": "all"}]');
返回结果如下:
+--------------------------------------------------------+
| TOKENIZE('I Love China','beng', '[{"output": "all"}]') |
+--------------------------------------------------------+
| {"tokens": [{"love": 1}, {"china": 1}], "doc_len": 2} |
+--------------------------------------------------------+
1 row in set (0.001 sec)