Elasticsearch底层的倒排索引技术是什么？

2024-10-16 18:11 由 YQiang 发表于 #后端开发

倒排索引

倒排索引的概念是基于MySQL这样的正向索引而言的。

技术应用在Elasticsearch，得益于倒排索引，用来实现高性能的搜索功能

正向索引

例如有一张名为tb_goods的表：

id	title	price
1	小米手机	3499
2	华为手机	4999
3	华为小米充电器	49
4	小米手环	49
...	...	...

其中的id字段已经创建了索引，由于索引底层采用了B+树结构，因此我们根据id搜索的速度会非常快。但是其他字段例如title，只在叶子节点上存在。

因此要根据title搜索的时候只能遍历树中的每一个叶子节点，判断title数据是否符合要求。

比如用户的SQL语句为：

select * from tb_goods where title like '%手机%';

那搜索的大概流程如图：

说明：

1）检查到搜索条件为like '%手机%'，需要找到title中包含手机的数据
2）逐条遍历每行数据（每个叶子节点），比如第1次拿到id为1的数据
3）判断数据中的title字段值是否符合条件
4）如果符合则放入结果集，不符合则丢弃
5）回到步骤1

综上，根据id精确匹配时，可以走索引，查询效率较高。而当搜索条件为模糊匹配时，由于索引无法生效，导致从索引查询退化为全表扫描，效率很差。

因此，正向索引适合于根据索引字段的精确搜索，不适合基于部分词条的模糊匹配。

而倒排索引恰好解决的就是根据部分词条模糊匹配的问题。

倒排索引

倒排索引中有两个概念

文档（Document）：每一条数据就是一个文档。

例如一个网页、一个商品信息

词条（Term）：文档按照语义分成的词语

例如：我是中国人，就可以分为：我、是、中国人、中国、国人这样的几个词条

倒排索引创建流程

创建倒排索引是对正向索引的一种特殊处理和应用，流程如下

先把文档进行分词，形成词条与文档的ID对应关系，为词条建立索引，而且具备唯一性
对搜索内容进行分词，把分词后的关键字列表，更具关键字去词条中匹配，再找到对应的文档ID
让后根据文档ID列表，找到对应的文档信息

此时形成的这张以词条为索引的表，就是倒排索引表，两者对比如下：

正向索引

id（索引）	title	price
1	小米手机	3499
2	华为手机	4999
3	华为小米充电器	49
4	小米手环	49
...	...	...

倒排索引

词条（索引）	文档id
小米	1，3，4
手机	1，2
华为	2，3
充电器	3
手环	4

倒排索引的搜索流程

倒排索引的搜索流程如下（以搜索"华为手机"为例）

流程描述：

1）用户输入条件"华为手机"进行搜索。

2）对用户输入条件分词，得到词条：华为、手机。

3）拿着词条在倒排索引中查找（由于词条有索引，查询效率很高），即可得到包含词条的文档id：1、2、3。

4）拿着文档id到正向索引中查找具体文档即可（由于id也有索引，查询效率也很高）。

虽然要先查询倒排索引，再查询倒排索引，但是无论是词条、还是文档id都建立了索引，查询速度非常快！无需全表扫描。

正向和倒排

那么为什么一个叫做正向索引，一个叫做倒排索引呢？

正向索引是最传统的，根据id索引的方式。但根据词条查询时，必须先逐条获取每个文档，然后判断文档中是否包含所需要的词条，是根据文档找词条的过程。
而倒排索引则相反，是先找到用户要搜索的词条，根据词条得到保护词条的文档的id，然后根据id获取文档。是根据词条找文档的过程。

正向和倒排优缺点

正向索引：

优点：
- 可以给多个字段创建索引
- 根据索引字段搜索、排序速度非常快
缺点：
- 根据非索引字段，或者索引字段中的部分词条查找时，只能全表扫描。

倒排索引：

优点：
- 根据词条搜索、模糊搜索时，速度非常快
缺点：
- 只能给词条创建索引，而不是字段
- 无法根据字段做排序

Python入门：A+B问题

1. A + B 问题I 前言本篇作为课程第一篇，主要是对Python基础语法进行扫盲，本节课会学习到下面知识：输入本道题目的工作任务很简单，只是计算两个数的和，但是在计算之前，我们首先要明确的一个问题就是如何把这两个数据输入到计算机中，并由程序读取呢？输入当然是使用键盘之类的输入设备完成， ...阅读全文

Delphi 中禁止 FMX 框架的 TStringGrid 单元格被选中

Delphi 中禁止 FMX 框架的 TStringGrid 单元格被选中环境 Windows 11 23H2 Delphi 12 Update 1 Multi-Device Application 使用 Delphi 中 FMX 框架的 TStringGrid 展示数据而不愿意某个单元格被选中时 ...阅读全文

代码随想录算法训练营第一天|704二分查找、27移除元素、977有序数组的平方

代码随想录算法训练营第一天|704二分查找、27移除元素、977有序数组的平方 1 Leetcode 704 二分查找题目链接：[704.二分查找](704. 二分查找 - 力扣（LeetCode）) 文章链接：[代码随想录](代码随想录 (programmercarl.com)) 视频链接：[手 ...阅读全文

解决conda环境包冲突问题

当我们将一个包安装到我们指定的虚拟环境中时，我们可能会发现它们会被安装到同一个目录中，并且不同版本的这些包之间会存在冲突。此外，我们可能会获取到不属于我们创建的环境的包信息。首先，我们需要知道，如果USER_SITE存在，所有的包都会被安装在其中，这就是为什么会导致版本冲突的原因。要解决这个问题 ...阅读全文

【日记】舞蹈是跟身体对话的一个过程（1451 字）

正文今天天气真好，天上一朵云都没有。本来上午就想着把被子拿出来晒，但想到中午还要睡觉，就变成下午了。晚上去收，发现被子上又落了一些桂花。想得很好，中午却几乎没有睡成觉。打游戏去了。中午过了黄眉。禁字诀真好用。都说难的第三阶段，我两次过。没什么人提起的第一阶段，我却死了五六次…… 打黄眉过场动画 ...阅读全文

manim边做边学--数轴

数轴是数学中的一个基本概念，它规定了原点、正方向和单位长度的直线。 Manim中的NumberLine就是一个专门用来表示数轴的对象，它允许用户设置数轴的范围、间隔和显示长度等参数，从而灵活地在动画中展示数学中的一维数值变化。下面将介绍Manim中的NumberLine对象的基本功能到使用示例。 ...阅读全文

一个案例入门补环境

补环境其实是`补浏览器有而Node没有的环境，即补BOM和DOM的对象`，一切环境补的结果都是向浏览器实际结果靠齐，入门补环境只需要记住缺啥补啥这个技巧，当运行提示缺少某个环境，则直接在浏览器运行该环境是啥结果然后补上该结果。 ...阅读全文

实战分享反爬机制快速定位与破解

在抓取某个站点时，我们需要找到目标接口，然后确定目标接口所使用的反爬机制，常见反爬机制有`cookie`、`请求头`、`签名校验`等，只有找到它所使用的反爬机制我们才能对点下药。 ...阅读全文

Pyenv 安装 & 使用

目录简介如何安装1. 获取Pyenv2. 设置环境变量3. 重启 shell使用指南安装一个 Python 版本。切换 Python 版本。卸载 Python 版本。更新 PyenvPyenv-virtualenv安装创建虚拟环境激活虚拟环境删除虚拟环境简介 Pyenv 是一款 Python 的版 ...阅读全文

我在大厂做 CR——为什么建议使用枚举来替换布尔值

使用枚举替换布尔值主要基于以下几个原因 ● 可读性 ● 可拓展性 ● 安全防控可读性我们会定义 boolean 类型（true 或 false）作为方法参数，虽然比较简洁，但有时候参数的含义往往不够清晰，造成阅读上的障碍，比如：参数可能表示“是否开启某个功能”，但仅凭 true 和 false ...阅读全文