百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程文章 > 正文

大数据ClickHouse进阶(一):ClickHouse使用场景和集群安装

qiyuwang 2025-04-29 03:36 5 浏览 0 评论

#头条创作挑战赛#

ClickHouse使用场景和集群安装


一、使用场景

ClickHouse是一个开源的,用于联机分析(OLAP)的列式数据库管理系统(DBMS-database manager system), 它是面向列的,并允许使用SQL查询,实时生成分析报告。ClickHouse最初是一款名为Yandex.Metrica的产品,主要用于WEB流量分析。ClickHouse的全称是Click Stream,Data WareHouse,简称ClickHouse。


ClickHouse使用C++进行编写,具有很多优秀的特点,如在ClickHouse基础篇我们讲解的ClickHouse特性:完备的DBMS功能、列式存储、数据压缩、向量化执行、支持标准SQL、支持20多张表引擎、支持多线程与分布式、多主架构、交互式查询、数据分片与分布式查询等。ClickHouse官网地址由原来的https://ClickHouse.tech改变为https://ClickHouse.com。


ClickHouse适合OLAP数据分析类的场景,数据体量越大,ClickHouse的优势越大。ClickHouse不适合以下场景:


  • ClickHouse 不支持事务,事务场景不适合
  • 不适合根据主键进行行粒度查询或删除场景(支持但不建议)


二、ClickHouse分布式集群安装


在后期创建表演示ClickHouse高级操作时,必须使用到ClickHouse集群,由于ClickHouse发展非常迅速,几乎每个月都会更新ClickHouse几个版本,与之前的ClickHouse20.8版本相对比,新的ClickHouse版本安装与配置有部分不同, 这里我们选择使用ClickHouse 21.9.4.35版本来重新进行分布式集群搭建,采用rmp包的安装方式。


我们可以从官网给定的下载rpm包的地址下载最新的ClickHouse rpm安装包,地址如下:
https://repo.yandex.ru/ClickHouse/rpm/stable/x86_64/


注意:这里从ClickHouse19.4版本之后,只需要下载3个rpm安装包即可,分别如下:


ClickHouse-common-static-21.9.4.35-2.x86_64.rpm
ClickHouse-server-21.9.4.35-2.noarch.rpm
ClickHouse-client-21.9.4.35-2.noarch.rpm


1、分布式集群安装


ClickHouse分布式集群安装选择三台节点,分别为node1,node2,node3,详细安装步骤如下:


1.1、选择三台clicsskhouse节点,在每台节点上安装ClickHouse需要的安装包


这里选择node1、node2,node3三台节点,上传安装包,分别在每台节点上执行如下命令安装ClickHouse:


rpm -ivh ./ClickHouse-common-static-21.9.4.35-2.x86_64.rpm
#注意在安装以下rpm包时,让输入密码,可以直接回车跳过
rpm -ivh ./ClickHouse-server-21.9.4.35-2.noarch.rpm
rpm -ivh ClickHouse-client-21.9.4.35-2.noarch.rpm


1.2、安装zookeeper集群并启动


搭建ClickHouse集群时,需要使用Zookeeper去实现集群副本之间的同步,所以这里需要zookeeper集群,zookeeper集群安装后可忽略此步骤。


1.3、配置外网可访问


在每台ClickHouse节点中配置
/etc/ClickHouse-server/config.xml文件第164行<listen_host>,如下:


<listen_host>::1</listen_host>
#注意每台节点监听的host名称配置当前节点host
<listen_host>node1</listen_host>


1.4、在每台节点创建metrika.xml文件,写入以下内容


在node1、node2、node3节点上
/etc/ClickHouse-server/config.d路径下下配置metrika.xml文件,默认ClickHouse会在/etc路径下查找metrika.xml文件,但是必须要求metrika.xml上级目录拥有者权限为ClickHouse ,所以这里我们将metrika.xml创建在
/etc/ClickHouse-server/config.d路径下,config.d目录的拥有者权限为ClickHouse。


在metrika.xml中我们配置后期使用的ClickHouse集群中创建分布式表时使用3个分片,每个分片有1个副本,配置如下:


vim /etc/ClickHouse-server/config.d/metrika.xml:


<yandex>
    <remote_servers>
        <ClickHouse_cluster_3shards_1replicas>
            <shard>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>node1</host>
                    <port>9000</port>
                </replica>
            </shard>
            <shard>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>node2</host>
                    <port>9000</port>
                </replica>
            </shard>
            <shard>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>node3</host>
                    <port>9000</port>
                </replica>
            </shard>
        </ClickHouse_cluster_3shards_1replicas>
    </remote_servers>
     
    <zookeeper>
        <node index="1">
            <host>node3</host>
            <port>2181</port>
        </node>
        <node index="2">
            <host>node4</host>
            <port>2181</port>
        </node>
        <node index="3">
            <host>node5</host>
            <port>2181</port>
        </node>
    </zookeeper>
    <macros>
        <shard>01</shard> 
        <replica>node1</replica>
    </macros>
    <networks>
        <ip>::/0</ip>
    </networks>
    <ClickHouse_compression>
        <case>
            <min_part_size>10000000000</min_part_size>
            <min_part_size_ratio>0.01</min_part_size_ratio>
            <method>lz4</method>
        </case>
    </ClickHouse_compression>
</yandex>


对以上配置文件中配置项的解释如下:


  • remote_servers:


ClickHouse集群配置标签,固定写法。注意:这里与之前版本不同,之前要求必须以ClickHouse开头,新版本不再需要。


  • ClickHouse_cluster_3shards_1replicas:


配置ClickHouse的集群名称,可自由定义名称,注意集群名称中不能包含点号。这里代表集群中有3个分片,每个分片有1个副本。


分片是指包含部分数据的服务器,要读取所有的数据,必须访问所有的分片。


副本是指存储分片备份数据的服务器,要读取所有的数据,访问任意副本上的数据即可。


  • shard:


分片,一个ClickHouse集群可以分多个分片,每个分片可以存储数据,这里分片可以理解为ClickHouse机器中的每个节点,1个分片只能对应1服务节点。这里可以配置一个或者任意多个分片,在每个分片中可以配置一个或任意多个副本,不同分片可配置不同数量的副本。如果只是配置一个分片,这种情况下查询操作应该称为远程查询,而不是分布式查询。


  • replica:


每个分片的副本,默认每个分片配置了一个副本。也可以配置多个,副本的数量上限是由ClickHouse节点的数量决定的。如果配置了副本,读取操作可以从每个分片里选择一个可用的副本。如果副本不可用,会依次选择下个副本进行连接。该机制利于系统的可用性。


  • internal_replication:


默认为false,写数据操作会将数据写入所有的副本,设置为true,写操作只会选择一个正常的副本写入数据,数据的同步在后台自动进行。


  • zookeeper:


配置的zookeeper集群,注意:与之前版本不同,之前版本是“zookeeper-servers”。


  • macros:


区分每台ClickHouse节点的宏配置,macros中标签<shard>代表当前节点的分片号,标签<replica>代表当前节点的副本号,这两个名称可以随意取,后期在创建副本表时可以动态读取这两个宏变量。注意:每台ClickHouse节点需要配置不同名称。


  • networks:


这里配置ip为“::/0”代表任意IP可以访问,包含IPv4和IPv6。


注意:允许外网访问还需配置
/etc/ClickHouse-server/config.xml 参照第三步骤。


  • ClickHouse_compression:


MergeTree引擎表的数据压缩设置,min_part_size:代表数据部分最小大小。min_part_size_ratio:数据部分大小与表大小的比率。method:数据压缩格式。


注意:需要在每台ClickHouse节点上配置metrika.xml文件,并且修改每个节点的 macros配置名称。


#node2节点修改metrika.xml中的宏变量如下:
    <macros>
        <shard>02</replica> 
        <replica>node2</replica>
    </macros>

#node3节点修改metrika.xml中的宏变量如下:
<macros>
        <shard>03</replica> 
        <replica>node3</replica>
    </macros>


1.5、在每台节点上启动/查看/重启/停止ClickHouse服务


首先启动zookeeper集群,然后分别在node1、node2、node3节点上启动ClickHouse服务,这里每台节点和单节点启动一样。启动之后,ClickHouse集群配置完成。


#每台节点启动Clickchouse服务
service ClickHouse-server start

#每台节点查看ClickHouse服务状态
service ClickHouse-server status

#每台节点重启ClickHouse服务
service ClickHouse-server restart

#每台节点关闭Clikchouse服务
service clickhose-server stop


1.6、检查集群配置是否完成


在node1、node2、node3任意一台节点进入ClickHouse客户端,查询集群配置:


#选择三台ClickHouse任意一台节点,进入客户端
ClickHouse-client 
#查询集群信息,看到下图所示即代表集群配置成功。
node1 :) select * from system.clusters;



#查询集群信息,也可以使用如下命令
node1 :) select cluster,host_name from system.clusters;



2、ClickHouse目录结构


ClickHouse集群安装完成之后会生成如下对应的目录,每个目录的介绍如下:


  • /etc/ClickHouse-server :


服务端的配置文件目录,包括全局配置config.xml 和用户配置users.xml。


  • /var/lib/ClickHouse :


默认的数据存储目录,通常会修改,将数据保存到大容量磁盘路径中,此路径可以通过
/etc/ClickHouse-server/config.xml配置,配置标签<path>对应的数据。


  • /var/log/cilckhouse-server :


默认保存日志的目录,通常会修改,将数据保存到大容量磁盘路径中,此路径可以通过
/etc/ClickHouse-server/config.xml配置,配置标签<log>对应的数据。


在/usr/bin下会有可执行文件:


  • ClickHouse:主程序可执行文件
  • ClickHouse-server:一个指向ClickHouse可执行文件的软连接,供服务端启动使用
  • ClickHouse-client:一个指向ClickHouse可执行文件的软连接,供客户端启动使用

相关推荐

基于Docker方式安装与部署Camunda流程引擎

1Camunda简介官网:https://docs.camunda.org/manual/7.19/installation/docker/Camunda是一个轻量级、开源且高度灵活的工作流和决策自...

宝塔Linux面板如何部署Java项目?(宝塔面板 linux)

通过宝塔面板部署Java还是很方便的,至少不需要自己输入tomcat之类的安装命令了。在部署java项目前,我还是先说下目前的系统环境,如果和我的系统环境不一样,导致部署不成功,那你可能需要去找其他资...

浪潮服务器如何用IPMI安装Linux系统

【注意事项】此处以浪潮服务器为例进行演示所需使用的软件:Chrome浏览器个人PC中需要预先安装java,推荐使用jdk-8u181-windows-x64.exe【操作步骤】1、在服务器的BIOS中...

Centos7环境Hadoop3集群搭建(hadoop集群环境搭建实验报告)

由于项目需要存储历史业务数据,经过评估数据量会达到100亿以上,在原有mongodb集群和ES集群基础上,需要搭建Hbase集群进行调研,所以首先总结一下Hadoop集群的搭建过程。一、三个节点的集群...

Hadoop高可用集群搭建及API调用(hadoop高可用原理)

NameNodeHA背景在Hadoop1中NameNode存在一个单点故障问题,如果NameNode所在的机器发生故障,整个集群就将不可用(Hadoop1中虽然有个SecorndaryNameNo...

使用Wordpress搭建一个属于自己的网站

现在开源的博客很多,但是考虑到wordpress对网站的seo做的很好,插件也多。并且全世界流量排名前1000万的网站有33.4%是用Wordpress搭建的!所以尝试用Wordpress搭建一个网站...

Centos 安装 Jenkins(centos 安装ssh)

1、Java安装查看系统是否已安装Javayumlistinstalled|grepjava...

Java教程:gitlab-使用入门(java中的git)

1导读本教程主要讲解了GitLab在项目的环境搭建和基本的使用,可以帮助大家在企业中能够自主搭建GitLab服务,并且可以GitLab中的组、权限、项目自主操作...

Dockerfile部署Java项目(docker部署java应用)

1、概述本文主要会简单介绍什么是Docker,什么是Dockerfile,如何安装Docker,Dockerfile如何编写,如何通过Dockerfile安装jar包并外置yaml文件以及如何通过do...

如何在Eclipse中搭建Zabbix源码的调试和开发环境

Zabbix是一款非常优秀的企业级软件,被设计用于对数万台服务器、虚拟机和网络设备的数百万个监控项进行实时监控。Zabbix是开放源码和免费的,这就意味着当出现bug时,我们可以很方便地通过调试源码来...

Java路径-02-Java环境配置(java环境搭建及配置教程)

1Window环境配置1.1下载...

35.Centos中安装python和web.py框架

文章目录前言1.Centos7python:2.Centos8python:3.进行下载web.py框架然后应用:4.安装好之后进行验证:5.总结:前言...

《我的世界》服务器搭建(我的世界服务器如何搭建)

1.CentOS7环境1.1更改YUM源#下载YUM源文件curl-o/etc/yum.repos.d/CentOS-Base.repohttps://mirrors.aliyun.com...

CentOS 7 升级 GCC 版本(centos7.4升级7.5)

1.GCC工具介绍GCC编译器:...

Linux安装Nginx详细教程(linux安装配置nginx)

环境准备1.因为Nginx依赖于gcc的编译环境,所以,需要安装编译环境来使Nginx能够编译起来。命令:yuminstallgcc-c++显示完毕,表示安装完成:2.Nginx的http模块需要...

取消回复欢迎 发表评论: