当前位置:首页 > 日记本 > 正文内容

elasticsearch 分词器的选择及安装中文分词插件

zhangchap2年前 (2022-07-28)日记本802


Elasticsearch中内置了很多分词器:standard、cjk、nGram等,也可以安装ik、pinyin等开源分词器, 可以根据业务场景选择合适的分词器。

常用分词器: standard:Elasticsearch默认分词,英文按空格切分,中文按单个汉字切分。

cjk:根据二元索引(两个相邻的字作为一个词条)对中日韩文分词,可以保证查全率。

 NGram:可以将英文按照字母切分,结合Elasticsearch的短语搜索(match_phrase)使用。

 ik:比较热门的中文分词,能按照中文语义切分,可以自定义词典。

 pinyin:可以让用户输入拼音,就能查找到相关的关键词。

对于查全率要求较高的场景,建议使用cjk分词,同时能支持比较快的响应速度。对于查准率要求较高的场景,建议使用ik分词。


下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases

注意:版本一定要对应,而且es的安装路径不能包含中文,否则就用不了该插件


解压到:Elasticsearch 安装目录 plugins 路径下,例如:D:\elasticsearch\plugins

重命名为 :ik

然后重新运行 elasticsearch.bat 即可


分享给朋友:

相关文章

火狐添加自定义搜索引擎

直接网址搜索自定义添加:https://mycroftproject.com/...

lxml win 安装方法

文档地址:https://lxml.de/installation.htmlwindows 下安装不了的都可以在这里找:https://www.lfd.uci.edu/~gohl...

python 函数 开启多线程示例

from threading import Thread def readfile(queue:Queue):    &nbs...

python url.parse模块编码解码

from urllib.parse import quote,unquote,urlencode # 对汉字进行编码使用 quote ...

python fake_useragent 模块用法

我们每次发送requests请求时通过random从中随机获取一个随机UserAgent,两行代码即可完成UserAgent的不停更换 from fake_useragent i...

Python 正则表达式 带分组的替换 \g

import re re.sub(r'([^a-z]*)[a-z]([^a-z]*)', '\g<1>\g<2>',wor...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。