当前位置：首页 > 日记本 > 正文内容

elasticsearch 分词器的选择及安装中文分词插件

zhangchap2年前 (2022-07-28)日记本802

Elasticsearch中内置了很多分词器：standard、cjk、nGram等,也可以安装ik、pinyin等开源分词器, 可以根据业务场景选择合适的分词器。

常用分词器： standard：Elasticsearch默认分词，英文按空格切分，中文按单个汉字切分。

cjk：根据二元索引(两个相邻的字作为一个词条)对中日韩文分词，可以保证查全率。

NGram：可以将英文按照字母切分，结合Elasticsearch的短语搜索(match_phrase)使用。

ik：比较热门的中文分词，能按照中文语义切分，可以自定义词典。

pinyin：可以让用户输入拼音，就能查找到相关的关键词。

对于查全率要求较高的场景，建议使用cjk分词，同时能支持比较快的响应速度。对于查准率要求较高的场景，建议使用ik分词。

下载地址：https://github.com/medcl/elasticsearch-analysis-ik/releases

注意：版本一定要对应，而且es的安装路径不能包含中文，否则就用不了该插件

解压到：Elasticsearch 安装目录 plugins 路径下，例如：D:\elasticsearch\plugins

重命名为：ik

然后重新运行 elasticsearch.bat 即可

分享给朋友：

返回列表

上一篇：elasticsearch常用接口

下一篇：python random模块随机生成数字

火狐添加自定义搜索引擎

直接网址搜索自定义添加：https://mycroftproject.com/...

lxml win 安装方法

文档地址：https://lxml.de/installation.htmlwindows 下安装不了的都可以在这里找：https://www.lfd.uci.edu/~gohl...

python 函数开启多线程示例

from threading import Thread def readfile(queue:Queue): &nbs...

python url.parse模块编码解码

from urllib.parse import quote,unquote,urlencode # 对汉字进行编码使用 quote ...

python fake_useragent 模块用法

我们每次发送requests请求时通过random从中随机获取一个随机UserAgent，两行代码即可完成UserAgent的不停更换 from fake_useragent i...

Python 正则表达式带分组的替换 \g

import re re.sub(r'([^a-z]*)[a-z]([^a-z]*)', '\g<1>\g<2>',wor...

发表评论

最顶级的能力是屏蔽力，任何消耗你的人和事，多看一眼都是你的不对。

人生最大的代价不是金钱，而是你走过的弯路，
人生最大的成本不是金钱，而是你的时间和精力，
机遇一旦错过就可能是一生。
Copyright zhenglia.com Rights Reserved.
挣俩网张涛与你共勉：当你的才华还撑不起你的野心的时候，你就应该静下心来学习。当你的能力还驾驭不了你的目标的时候，你就应该沉下心来历练。问问自己，想要怎样的人生。
分享学习(python、优化)的点点滴滴

挣俩网

elasticsearch 分词器的选择及安装中文分词插件

相关文章

火狐添加自定义搜索引擎

lxml win 安装方法

python 函数开启多线程示例

python url.parse模块编码解码

python fake_useragent 模块用法

Python 正则表达式带分组的替换 \g

发表评论

Powered By Z-BlogPHP. Theme by TOYEAN.

挣俩网

elasticsearch 分词器的选择及安装中文分词插件

相关文章

火狐添加自定义搜索引擎

lxml win 安装方法

python 函数 开启多线程示例

python url.parse模块编码解码

python fake_useragent 模块用法

Python 正则表达式 带分组的替换 \g

发表评论取消回复

Powered By Z-BlogPHP. Theme by TOYEAN.

python 函数开启多线程示例

Python 正则表达式带分组的替换 \g

发表评论