elasticsearch 分词器的选择及安装中文分词插件
Elasticsearch中内置了很多分词器:standard、cjk、nGram等,也可以安装ik、pinyin等开源分词器, 可以根据业务场景选择合适的分词器。
常用分词器: standard:Elasticsearch默认分词,英文按空格切分,中文按单个汉字切分。
cjk:根据二元索引(两个相邻的字作为一个词条)对中日韩文分词,可以保证查全率。
NGram:可以将英文按照字母切分,结合Elasticsearch的短语搜索(match_phrase)使用。
ik:比较热门的中文分词,能按照中文语义切分,可以自定义词典。
pinyin:可以让用户输入拼音,就能查找到相关的关键词。
对于查全率要求较高的场景,建议使用cjk分词,同时能支持比较快的响应速度。对于查准率要求较高的场景,建议使用ik分词。
下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases
注意:版本一定要对应,而且es的安装路径不能包含中文,否则就用不了该插件
解压到:Elasticsearch 安装目录 plugins 路径下,例如:D:\elasticsearch\plugins
重命名为 :ik
然后重新运行 elasticsearch.bat 即可