【Elasticsearch 技术分享】—— Elasticsearch ？倒排索引？这都是什么？

liuzhihang2020-08-182025-03-28

前言

革命同志是块砖，哪里需要哪里搬！这不，老大发话，要我在组内做一个 Elasticsearch 技术分享。这不话题一转，开始看起来 ES 了。虽然很久之前用过 ELK 做过日志监控系统，但是毕竟时隔已久，还是得从头看起。当然手头的活也不能停，话不多说，开始分享。先看看什么是 ES？

Elasticsearch 是分布式搜索和分析引擎。

Elasticsearch 为所有类型的数据提供**近实时（near real-time）**的搜索和分析。

常用场景：

像下图中使用的设计：

HiP4n4-mnRdVv

特点：

ES是一个分布式文档存储，存储的数据都是序列化为 JSON documents 。
使用倒排索引存储数据，倒排索引比较适合全文本搜索。
基于Apache Lucene搜索引擎库，可以存储，检索文档及元数据。
支持 JSON 样式的查询语言——Query DSL，也支持 SQL 样式的查询。
集群部署，易于扩展。节点（node）分片（shard），将新的 node 添加到集群时，ES 会自动迁移 shard 到新 node 上，重新平衡集群。
1. shard 分为两种主分片（primary shard）和副本分片（replica shard）
2. replica shard 存放的是 primary shard 的冗余副本 —— 可以防止集群故障，数据丢失，同时可以提高搜索或检索速度。
3. 在创建索引时 primary shard 数量是固定的，而replica shard 数量是可以更改的。
4. 分片由索引配置，分片越多，维护索引则开销则越大，分片大小越大，则 ES 在增减节点重新平衡集群时，分片移动时间越长。
集群恢复：跨集群复制（CCR），可以自动将索引从主集群同步到热备份的辅助远程集群。