数据库测试|Elasticsearch和ClickHouse的对决

前言

数据库作为产品架构的重要组成部分,一直是技术人员做产品选型的考虑因素之一。

ClkLog会经常遇到小伙伴问支持兼容哪几种数据库?为什么是选择ClickHouse而不是这个或那个。

由于目前市场上主流的数据库有许多,这次我们选择其中一个比较典型的Elasticsearch来和ClickHouse做一次实战测试,让大家更直观地看到真实的比对数据,从而对这两个数据库有更深入的了解,也就能理解为什么我们会选择ClickHouse。

比较Elasticsearch和ClickHouse,就像比较苹果和香蕉。两者都是很好的东西,有相似的功效,很多情况下都可以相互替代,同时各有特点,无法给出简单谁强谁弱的结论。

ClickHouse是为OLAP而生的,而Elasticsearch更早面世,也经常被用于生成统计报表。所以,我们将在这个交叉领域做实际测试,以便更好地做出决策。

先看测试结果

省流版测试比对结果,见下图。

如果你有兴趣了解详细的测试过程与结论,那就接着往下看吧。

概述

Web访问日志是最常见的日志之一,有基本统一的共识,比较适合作为测试数据。

测试将从 CPU、内存、存储、延迟等方面对比,服务器采用单节点部署形式,减少变量。

测试环境

  • 硬件配置(最低要求配置

CPU:4 核心

内存:16GB

磁盘:100GB SSD

  • 数据集:模拟生成的Web访问日志,共计1千万条记录
  • 网络环境:局域网

采用Docker Compose创建服务器环境

使用以下Python脚本生成日志文件:

日志文件参考大小为2.8G。

数据导入速度

测试数据集将包含大量的Web访问日志,以模拟实际应用场景中的数据流入情况。我们将比较在相同硬件环境 下,Elasticsearch和ClickHouse在数据导入速度上的表现。

使用vector读取日志文件,解析并发送到Elasticsearch和ClickHouse,配置如下:

​​​​​​

注意,测试时sinks部分应该只保留当前的测试对象,避免互相干扰。

Elasticsearch导入速度如下图所示:

导入1千万条访问日志,花费12分钟18秒,平均13550条每秒。

在导入过程中,Vector没有告警信息。已对导入结果检查,日志数量没有问题。

测试ClickHouse导入前,需要预先创建表:

ClickHouse导入速度如下图所示:

导入1千万条访问日志,花费8分10秒,平均20408条每秒。

在导入过程中,Vector有告警信息。已对导入结果检查,日志数量没有问题。

资源占用(CPU和内存)

资源占用是评价系统性能的重要指标。我们将监控在数据导入过程中,Elasticsearch和ClickHouse的CPU和

内存使用情况。

Elasticsearch在导入过程中,CPU占用约70%,内存占用8GB,导入结束后内存维持占用。

ClickHouse在导入过程中,CPU占用100%,导入过程中及导入结束后内存占用均维持在2GB左右。缓存占用, 导入前为3GB,导入过程中缓存占用逐步上升,导入结束时达到最大值12GB左右,之后逐步下降,最终恢复为3GB。

存储需求

存储需求直接影响系统的扩展性和成本。我们将比较 Elasticsearch和ClickHouse在存储相同数据集时的存储占用情况,以及两者在数据压缩和存储优化方面的表现。

导入1千万条Web访问日志后:

Elasticsearch数据占用存储空间约为3.1GB。在导入过程中占用存储空间逐渐稳定上升。

ClickHouse数据占用存储空间约为1.1GB。注意,在导入过程中占用存储空间一度观察到达到19GB左右(导入结束时),在之后花费约10分钟逐步收缩到最终大小。

查询延迟

查询延迟是用户体验的重要指标。我们将测试 Elasticsearch和ClickHouse在处理不同复杂度查询时的延迟表现,包括简单查询和复杂聚合查询。

  • 场景1

对这1千万条Web访问日志,按天统计,状态码大于等于400的次数前10名的路径。

Elasticsearch花费1700毫秒,使用以下查询:

ClickHouse花费500毫秒,使用以下SQL脚本:

  • 场景2

对这1千万条Web访问日志,查询耗时>=1秒的次数前10的路径,包含路径、总次数、最⼤耗时、平均耗时、超1秒的次数。

Elasticsearch花费7000毫秒,使用以下查询:

ClickHouse花费300毫秒,使用以下SQL脚本:

总结

通过以上几个方面的测试,我们将全面对比Elasticsearch和ClickHouse在Web访问日志统计分析应用中的表现。希望通过这次对比,能够为大家在选择合适的日志分析系统时提供有价值的参考。

总体而言,Elasticsearch开箱即用,特别是应对种类繁杂的日志时,非常灵活。甚至web访问日志这个单一领域,查询参数有很多变化,在写入时建模,省时省力。Elasticsearch使用一种名为 Query DSL(Domain Specific Language)的查询语言与大多数工程师、数据分析师熟悉的技术栈差异比较大,设置了较高的学习和使用门槛,并需要学习大量的多新的概念和语法,即使学会之后还需要经常查阅手册才能写出正确的DSL语句。ClickHouse在写入、查询、存储、内存节省方面有明显优势,但需要实现定义表结构,应对字段经常变化的场景维护繁琐。ClickHouse的查询语言是基于SQL的,称为ClickHouse SQL工程师和数据分析师对于 SQL非常熟悉,经验可以复用,不需要学习新的技术栈即可快速上手。

写在最后

从两方面因素考虑。其一,ClkLog作为用户行为分析系统,需要能够进行大规模的数据存储、繁琐的数据统计与聚合查询,对数据库的性能有比较高的要求。其二,ClkLog作为开源产品,更多的用户是具有开发能力的个人与公司,可以进行较为复杂的表结构维护。

综上,ClickHouse更符合ClkLog的产品需求与定位。

在数据库选型方面,4月我们完成了对火山引擎ByConity的兼容性测试,我们将持续进行对OLAP类型的数据库测试,类似Apache Doris、Apache Druid、Amazon Redshift等。如果你有想看的数据库测试,也可以私信我们(扫描下方二维码,添加好友)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/777909.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

(软件06)串口屏的应用,让你的产品显得高级一点(下篇)

本文目录 学习前言 单片机代码实现 学习前言 目前市面上我记得好像有IIC的屏幕、SPI的屏幕、并口屏幕、还有就是今天我们介绍的这个串口屏了,串口屏,就是用串口进行通讯的,上篇我们已经介绍了屏幕供应商提供的上位机软件进行配置好了&#…

2000-2019年各省市资源错配指数

资源错配指数(Misallocation Index)是衡量一个地区或国家资源配置效率的重要经济指标。以下是对资源错配指数相关数据的介绍: 数据简介 定义:资源错配指数是一个反映生产要素配置合理性的指标,高指数意味着资源配置效…

Science期刊政策反转:允许生成式AI用于论文写作,意味着什么?

我是娜姐 迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。 关于各大top期刊和出版社对于生成式AI用于论文写作中的规定,娜姐之前写过一篇文章: 如何合理使用AI写论文?来看Top 100学术期刊和出版社的…

Go 中的类型推断

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

昇思25天学习打卡营第08天 | 模型训练

昇思25天学习打卡营第08天 | 模型训练 文章目录 昇思25天学习打卡营第08天 | 模型训练超参数损失函数优化器优化过程 训练与评估总结打卡 模型训练一般遵循四个步骤: 构建数据集定义神经网络模型定义超参数、损失函数和优化器输入数据集进行训练和评估 构建数据集和…

东芝TB6560AHQ/AFG步进电机驱动IC:解锁卓越的电机控制性能

作为一名工程师,一直在寻找可靠且高效的组件来应用于你的项目中。东芝的TB6560AHQ/AFG步进电机驱动IC能够提供精准且多功能的电机控制,完全符合现代应用的高要求,保证高性能和易用性。在这篇文章中,我们将探讨TB6560AHQ/AFG的主要…

CentOS 7.9 停止维护(2024-6-30)后可用在线yum源 —— 筑梦之路

众所周知,centos 7 在2024年6月30日,生命周期结束,官方不再进行支持维护,而很多环境一时之间无法完全更新替换操作系统,因此对于yum源还是需要的,特别是对于互联网环境来说,在线yum源使用方便很…

直播预告 | VMware大规模迁移实战,HyperMotion助力业务高效迁移

2006年核高基专项启动,2022年国家79号文件要求2027年央国企100%完成信创改造……国家一系列信创改造政策的推动,让服务器虚拟化软件巨头VMware在中国的市场份额迅速缩水。 加之VMware永久授权的取消和部分软件组件销售策略的变更,导致VMware…

移动端UI风格营造舒适氛围

移动端UI风格营造舒适氛围

XXL-JOB中断信号感知

目录 背景 思路 实现逻辑 总结 背景 在使用xxl-job框架时,由于系统是由线程池去做异步逻辑,然后主线程等待,在控制台手动停止时,会出现异步线程不感知信号中断的场景,如下场景 而此时如果人工在控制台停止xxl-job执…

insert阻塞了insert?

一、发现问题 在arms监控页面看到某条insert语句的执行时长达到了431毫秒。 数据库中存在,insert语句受到了行锁阻塞,而阻塞的源头也在执行同样的insert语句,同样都是对表USERSYS_TASK_USER_LOG_TEMP01的插入操作,很是费解。 二…

idea创建的maven项目pom文件引入的坐标报红原因

如下所示 我们在引入某些依赖坐标的时候,即使点击了右上角的mavne刷新之后还是报红。 其实这是正常现象,实际上是我们的本地仓库当中没有这些依赖坐标,而idea就会通过报红来标记这些依赖来说明在我们的本地仓库是不存在的。 那有的同学就会…

ODOO17的邮件机制-系统自动推送修改密码的邮件

用户收到被要求重置密码的邮件: 我们来分析一下ODOO此邮件的工作机制: 1、邮件模板定义 2、渲染模板的函数: 3、调用此函数的机制: 当用户移除或增加了信任的设备(如电脑、手机端等),系统会自…

农业气象站:现代农业的守护者与引领者

随着科技的飞速发展,农业领域也在经历着前所未有的变革。在这一变革中,农业气象站以其独特的功能和作用,逐渐成为了现代农业的守护者与引领者。 农业气象站,顾名思义,是专门用于观测和记录农田气象要素的设施。这些气象…

轻松设置:服务器域名配置全攻略

目录 前置条件 在阅读本篇内容之前,请先确保以下物料已准备好: 一台公网服务器,服务正常运行申请完成的域名,在对应域名服务商后台正常DNS解析域名备案完成可选条件:有https访问请求时,需要申请SSL证书 …

Android在framework层添加自定义服务的流程

环境说明 ubuntu16.04android4.1java version “1.6.0_45”GNU Make 3.81gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.12) 可能有人会问,现在都2024了怎么还在用android4版本,早都过时了。确实,现在最新的都是Android13、And…

在Linux环境下搭建Redis服务结合内网穿透实现通过GUI工具远程管理数据库

文章目录 前言1. 安装Docker步骤2. 使用docker拉取redis镜像3. 启动redis容器4. 本地连接测试4.1 安装redis图形化界面工具4.2 使用RDM连接测试 5. 公网远程访问本地redis5.1 内网穿透工具安装5.2 创建远程连接公网地址5.3 使用固定TCP地址远程访问 前言 本文主要介绍如何在Li…

Python处理表格数据常用的 N+个操作

Python作为一种强大且易用的编程语言,其在数据处理方面表现尤为出色。特别是当我们面对大量的表格数据时,Python的各类库和工具可以极大地提高我们的工作效率。以下,我将详细介绍Python处理表格数据常用的操作。 首先,我们需要安…

【算法笔记自学】第 3 章 入门篇(1)——入门模拟

3.1简单模拟 自己写的题解 #include <stdio.h> #include <stdlib.h> int main() {int N;int num0;scanf("%d",&N);while(N!1){if(N%20){NN/2;}else{N(3*N1)/2;}num;}printf("%d",num);system("pause"); // 防止运行后自动退出&…

SpringBoot+OSS实现文件上传

创建spring boot项目 pom依赖 <dependency><groupId>com.aliyun.oss</groupId><artifactId>aliyun-sdk-oss</artifactId><version>3.17.4</version></dependency><dependency><groupId>javax.xml.bind</groupI…