Elasticsearch 使用误区之将 Elasticsearch 视为关系数据库!

开发 开发工具
Elasticsearch 常被误解为 MySQL 或者 PostgreSQL 等关系数据库的直接替代品,用户除了直接替代使用外更看其全文搜索和快速聚合的能力。

Elasticsearch 是一个强大的工具,尤其在全文检索、实时分析、机器学习、地理数据应用、日志和事件数据分析、安全信息和事件管理等场景有大量的应用。

然而,Elastic Stack 技术栈的选型及应用效能取决于正确的使用方式。选型错误或者误用 Elasticsearch 可能会导致扩展性问题、性能问题(如为解决一个问题使用非常复杂的脚本导致性能极差)等,从而使整体体验感变差。所以,本文区别于之前的正向讲解的方式,更多的讲解反例或者负面应用案例。“以史为鉴”,以便于大家更好地使用 Elasticsearch。

本系列文章会有 10 几篇左右,一篇一个知识点讲解 Elasticsearch 使用误区解读,敬请期待!

误区1:将 Elasticsearch 视为关系数据库

Elasticsearch 常被误解为 MySQL 或者 PostgreSQL 等关系数据库的直接替代品,用户除了直接替代使用外更看其全文搜索和快速聚合的能力。

然而,咱们必须清晰的认知:Elasticsearch 设计初衷不是处理复杂事务和关系数据模型的。

我们从下面几个维度逐一展开讨论:

1、该不该选型 Elasticsearch ?

个人建议先了解 Elasticsearch 的适用场景以及不适用场景,这样能清楚 Elastic Stack 技术栈更适合哪些业务需求。

例如,咱们文章之前图解的六大应用场景是非常适合的。然而,对于需要处理复杂事务、多表联查操作和高一致性要求的应用,如银行系统的交易处理和ERP系统等,Elasticsearch 则不太适合。

图片图片

Elasticsearch 更适用场景:

图片图片

图片图片


通过对比这些场景,反观自己的业务需求,就能判断是否应该选型 Elasticsearch 甚至 Elastic Stack 作为技术栈。

2、理解 Elasticsearch 的设计

图片来自官方博客图片来自官方博客

Elasticsearch 是一种面向文档的搜索引擎,专为快速搜索大量数据而设计。

Elasticsearch 基于 Apache Lucene 构建,提供了强大的全文搜索、分析和数据聚合功能。

以下是 Elasticsearch 的主要特点:

  • 全文搜索:Elasticsearch 提供了高效的全文搜索功能,能够快速检索和匹配大规模文本数据。
  • 分布式架构:Elasticsearch 采用分布式架构,能够水平横向扩展,处理海量数据(PB级甚至以上都不是问题)和高并发请求。
  • 数据分析:Elasticsearch 支持复杂的聚合查询,可以做多维度的快速统计和分析数据,但聚合、去重等结果不是精准的。有精准需求的企业场景也要评估和掂量一下。
  • ......

图片来自官方博客图片来自官方博客

如前所述,Elasticsearch 并不是设计用来处理关系数据和事务的。它的主要优势在于分析和搜索能力,而不是数据关系的严格维护。

3、理解 Elasticsearch 与关系数据库的比较

关系数据库(如 MySQL、Oracle 及 PostgreSQL 等)和 Elasticsearch 之间有几个关键区别:

3.1 数据模型比较

  • 关系数据库使用结构化的表和行来存储数据,并通过外键和约束来维护数据的一致性。
  • Elasticsearch 则使用文档(document,本质是 JSON 格式)来存储数据,每个文档可以包含不同的字段和数据类型。

特性

关系数据库

Elasticsearch

数据存储结构

结构化的表和行

文档

数据类型

每个表的字段类型固定

每个文档可以包含不同的字段和数据类型

数据一致性

通过外键和约束来维护数据的一致性

不提供数据一致性保障

查询能力

支持复杂的 SQL 查询、事务和联接操作

主要用于全文搜索和数据聚合

事务支持

完整的事务支持

不支持事务

性能优化

索引、缓存和查询优化

分片、索引和缓存

主要优势

关系数据处理和数据一致性维护

快速搜索和高效的数据聚合

3.2 查询能力比较

  • 关系数据库支持复杂的 SQL 查询、事务和多表关联操作,以保证数据的一致性和完整性。
  • Elasticsearch 主要侧重于全文搜索和数据聚合,不支持复杂的事务和多表关联操作。

在关系数据库中,我们可以使用复杂的 SQL 查询、事务和多表关联操作来保证数据的一致性和完整性。例如:

BEGIN TRANSACTION;

-- 更新订单状态
UPDATE orders
SET status = 'shipped'
WHERE order_id = 123;

-- 减少库存
UPDATE products
SET stock = stock - 1
WHERE product_id = 456;

-- 记录客户活动
INSERT INTO customer_activity (customer_id, activity)
VALUES (789, 'Order 123 shipped');

COMMIT;

图片图片

上述事务示例能确保所有相关操作(更新订单状态、减少库存和记录客户活动)要么全部成功,要么全部失败,从而保证数据的一致性(事务的本质)。

在 Elasticsearch 中,我们主要侧重于全文搜索和数据聚合分析,而不支持复杂的事务和多表关联操作。

比如:用户需求如下:

“想请教下大佬们,假设 es 中 有两个表,一个会员表,一个订单表,如果想关联查询,例如查询24年注册的所有的会员的订单总数,通过什么方式能快速查询?”

咱们文章做过剖析,Elasticsearch 不是一丁点也不支持多表关联,只是支持的力度有限,支持的形式核心有如下几种:

  • 自己业务层面实现
  • Nested 嵌套数据类型
  • Join 父子文档类型
  • 宽表冗余存储
  • Enrich processor 预处理方式
责任编辑:武晓燕 来源: 铭毅天下Elasticsearch
相关推荐

2024-09-09 07:51:33

2023-10-10 11:18:42

Spring数据库

2024-07-26 10:42:30

2018-10-15 13:57:38

Hadoop数据库MySQL

2014-02-27 10:08:33

NoSQL

2011-08-15 10:02:02

LEIDomino附件关系数据库

2009-08-25 09:09:33

关系数据库数据库革命RDBMS

2009-05-05 09:27:06

云计算关系数据库微软

2011-10-11 17:07:12

数据库Internet文件数据库

2023-01-06 08:00:00

关系数据库数据库机器学习

2023-10-16 13:26:00

RDBMS关系数据库

2009-07-10 09:28:41

NoSQL关系数据库

2024-09-26 14:33:15

2020-03-14 16:37:09

数据库IT技术

2018-04-12 12:45:02

数据库MySQL构建架构

2011-07-18 09:54:47

云计算分片关系数据库关系数据库

2010-09-15 14:09:01

GraphDataba

2023-05-22 11:20:27

数据库MySQL关系数据

2017-06-28 08:14:57

数据库区块链比特币

2009-03-26 11:10:13

关系数据库关系型数据库数据库
点赞
收藏

51CTO技术栈公众号