Site icon 时鹏亮的Blog

Elasticsearch 按指定字符分词

请知悉:本文最近一次更新为 2年 前,文中内容可能已经过时。

Elasticsearch 解析器啊,不知道的时候会默认用自己的standard解析器进行。

但是呢,如果你需要按自己指定字符分词解析,是要自定义tokenizer分词器的,类型为:char_group,属性tokenize_on_chars为你要指定的字符串数组。

然后解析器的类型使用custom自定义,并指定tokenizer为自建分词器即可。

PHP的示例代码为:

$analysis['tokenizer']['testTokenizer']['type'] = 'char_group';
$analysis['tokenizer']['testTokenizer']['tokenize_on_chars'] = ['*'];
$analysis['analyzer']['testAnalyzer']['type'] = 'custom';
$analysis['analyzer']['testAnalyzer']['tokenizer'] = 'testTokenizer';

上述示例就是按字符*进行强制分词。


参考资料

Character group tokenizer


如您从本文得到了有价值的信息或帮助,请考虑扫描文末二维码捐赠和鼓励。

尊重他人劳动成果。转载请务必附上原文链接,我将感激不尽。


与《Elasticsearch 按指定字符分词》相关的博文:

Exit mobile version