es笔记四之中文分词插件安装与使用

2023-05-21 16:56 由 XHunter 发表于 #数据库

本文首发于公众号：Hunter后端
原文链接：es笔记四之中文分词插件安装与使用

前面我们介绍的操作及演示都是基于英语单词的分词，但我们大部分使用的肯定都是中文，所以如果需要使用分词的操作肯定也是需要使用中分分词。

这里我们介绍一下如何安装中文分词插件。

在介绍安装之前，我们可以先来测试一下没有中文分词的分词效果，我们先来插入一条数据：

PUT /exam/_doc/16
{
    "name" : "张三丰",
    "address": "一个苹果"
}

如果是中文分词，我们可以想到 '一个苹果' 应该会被分为 '一个' 和 '苹果' 这两个词，但是默认的分词是无法这样分词的，我们可以尝试搜索一下：

GET /exam/_search
{
  "query": {
    "term": {
      "address": "一个"
    }
  }
}

可以发现是无法搜索到结果的。

我们可以查看一下这条数据的 address 字段被分词的结果：

GET /exam/_doc/16/_termvectors?fields=address

其中，_doc 后面的 16 是我们要查询的数据的 id，fields 后面跟着的要查看的分词结果的字段名。

可以看到一个苹果这个字符串，被挨个分成了四个。

然后我们来安装一下中文分词的插件。

安装中文分词插件

在 elasticsearch 安装的目录下，执行下面的语句：

./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.6.0/elasticsearch-analysis-ik-7.6.0.zip

这里我们安装的是 7.6.0 版本的 es，所以安装对应的分词插件。

然后我们重新建立这个 index，为 address 字段加上指定的分词插件：

挨个执行下面的命令：

DELETE /exam/

PUT /exam

PUT /exam/_mapping
{
  "properties": {
    "address": {
      "type": "text",
      "analyzer": "ik_max_word",
      "fields": {
        "keyword": {
          "type": "keyword",
          "ignore_above": 256
        }
      }
    },
    "name": {
      "type": "keyword"
    }
  }
}

这里，和第一次创建 mapping 的时候比，多了一行 analyzer 的定义。

然后我们再次重复上面的插入和查询操作：

PUT /exam/_doc/16
{
    "name" : "张三丰",
    "address": "一个苹果"
}

GET /exam/_search
{
  "query": {
    "term": {
      "address": "一个"
    }
  }
}

可以看到，这次我们搜索一个，就可以查询到数据了。

然后我们看下这条数据的 address 的分词结果：

GET /exam/_doc/16/_termvectors?fields=address

可以看到，这次返回的结果除了单独的 '一' 和 '个' 之外，还有被分成整体的 '一个' 和 '苹果'。

查看分词结果

这里额外介绍一下如何查看字符串的分词。

如果我们有一个字符串，想要知道它会被如何分词，可以直接使用下面的命令：

POST /_analyze
{
  "analyzer": "ik_smart",
  "text": "一个苹果"
}

其中，analyzer 是指定的分词的插件，如果不指定就会使用默认的分词功能。

中文分词插件的github 地址如下：https://github.com/medcl/elasticsearch-analysis-ik

如果想获取更多后端相关文章，可扫码关注阅读：

es笔记三之term，match，match_phrase 等查询方法介绍

> 本文首发于公众号：Hunter后端 > 原文链接：[es笔记三之term，match，match_phrase 等查询方法介绍](https://mp.weixin.qq.com/s/3tzD8dEr592WNJFH_1bKRw) 首先介绍一下在 es 里有两种存储字符串的字段类型，一个是 ke ...阅读全文

记一次 Oracle 下的 SQL 优化过程

# 1. 介绍事情是这样的，UAT 环境的测试小伙伴向我扔来一个小 bug，说是一个放大镜的查询很慢，转几分钟才出数据，我立马上开发环境试了一下，很快啊我说😏，放大镜的数据立马就出来了，然后我登录 UAT 环境一看，诶是有些慢😕 ，于是开始了我的排查之旅... # 2. 过程首先我立马拿到了 ...阅读全文

boot-admin 项目数据库缺省字段设计之最佳实践

数据库（Database）中的缺省字段（也称为默认字段），就是在一般情况下，每个数据表（Table）必须包含的字段（Field）,这类字段用于满足特定的数据需求，字段值的填充或更改一般遵照一定的逻辑要求。缺省字段的设计应该考虑到数据的完整性和一致性，以确保数据的正确与可靠，设计合理的表字段对于数据的 ...阅读全文

es 笔记二之基础查询

> 本文首发于公众号：Hunter后端 > 原文链接：[es笔记二之基础查询](https://mp.weixin.qq.com/s/VW0QCuW-ONEH-TRB2WF4GQ) 这一篇笔记介绍 es 的基础查询。基础查询包括很多，比如排序，类似数据库 limit 的操作，like 操作，与或非 ...阅读全文

升级 AIR_ORDER_FLIGHT

```sql # kais ``` ...阅读全文

【由浅入深学MySQL】之MySQL索引基础入门

**本系列为：MySQL数据库详解，为千锋教育资深教学老师独家创作** **致力于为大家讲解清晰MySQL数据库相关知识点，含有丰富的代码案例及讲解。如果感觉对大家有帮助的话，可以【关注】持续追更\~** **文末有本文重点总结，技术类问题，也欢迎大家和我们沟通交流！** ![在这里插入图片描述]( ...阅读全文

这年头怕数据泄露？全密态数据库：无所谓，我会出手

摘要：有一种数据泄露的死敌，叫全密态！本文分享自华为云社区《这年头怕数据泄露？全密态数据库：无所谓，我会出手》，作者：GaussDB 数据库。吊炸天的全密态数据库，到底是个啥？藏不住了，这全密态数据库真上头！有一种数据泄露的死敌，叫全密态！数据被标价售卖莫名其妙接到诈骗电话企业数据泄露 ...阅读全文

技术干货｜如何利用 ChunJun 实现数据离线同步？

ChunJun 是⼀款稳定、易⽤、⾼效、批流⼀体的数据集成框架，基于计算引擎 Flink 实现多种异构数据源之间的数据同步与计算。ChunJun 可以把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从⽽为企业提供全⾯的数据共享，目前已在上千家公司部署且稳定运⾏。在之前，我们曾经为大家介 ...阅读全文

es笔记一之es安装与介绍

本文首发于公众号：Hunter后端原文链接：es笔记一之es安装与介绍首先介绍一下 es，全名为 Elasticsearch，它定义上不是一种数据库，是一种搜索引擎。我们可以把海量数据都放到 es 里然后提供搜索操作，但是 MySQL 也同样可以提供搜索，为什么要用 es 呢？一个是因为它搜 ...阅读全文

mysql事务

事务（mysql）第一章事务概念 1、事务机制在程序开发过程中有着很大的作用。在现实生活中，经常进行转账操作，分为两个步骤：转入与转出，只有当两部分都完成才认为转账成功。 2、如果其中任意操作异常没有执行成功，则会导致两账户的金额不同步，造成错误，为了避免上述错误，数据库引入事务。 3、事务：就 ...阅读全文