大数据

大数据Clickhouse(CK)
- 1. Ubuntu下安装
- - - 1）下载
    - 2）安装
    - 3）启动
    - 4）登录
    - 5）测试
- 2. python连接clickhouse （CK）
- 3. 数据库管理工具连接clickhouse
- - 1）DataGrip连接clickhouse
  - 2）DBeaver连接clickhouse
- 4. 实例

大数据Clickhouse(CK)

Clickhouse本为俄罗斯yandex搜索引擎服务。近几年大火，各大大厂大都在用。Clickhouse在国外简称CH，在国内简称CK，因叫起来有AK的感觉。

1. Ubuntu下安装

环境：Ubuntu16.04，其他版本应该也可以（未测）

1）下载

官方下载地址：
https://repo.clickhouse.tech/deb/stable/main/。或 https://repo.yandex.ru/clickhouse/deb/stable/main/。因为clickhouse本属于俄罗斯yandex搜索引擎。
下载如下三个文件

clickhouse-common-static_20.9.2.20_amd64.deb
clickhouse-server_20.9.2.20_all.deb
clickhouse-client_20.9.2.20_all.deb

2）安装

执行

sudo dpkg -i clickhouse-common-static_20.9.2.20_amd64.deb
sudo dpkg -i clickhouse-server_20.9.2.20_all.deb
sudo dpkg -i clickhouse-client_20.9.2.20_all.deb

安装过程中会提示输入密码。假设密码设置为root

3）启动

sudo service clickhouse-server start

或

systemctl restart clickhouse-server

4）登录

clickhouse-client --password

输入安装时设置的密码root即可登录

5）测试

输入 show databases;

2. python连接clickhouse （CK）

需要下载clickhouse-driver驱动。
（1）在线安装
pip install clickhouse-driver即可。
（2）离线安装
先到
https://pypi.org/project/tzlocal/#files 下载 tzlocal-2.1-py2.py3-none-any.whl (16.2 kB)
https://pypi.org/project/clickhouse-driver/#files 下载 clickhouse_driver-0.2.1-cp37-cp37m-manylinux1_x86_64.whl
先安装插件
pip install tzlocal-2.1-py2.py3-none-any.whl
再安装clickhouse_driver：
pip install clickhouse_driver-0.2.1-cp37-cp37m-manylinux1_x86_64.whl

实例：

# 注意代码中是clickhouse_driver，而pip安装包是clickhouse-driver。因为python代码习惯用下划线
from clickhouse_driver import Clientclient = Client(host = '127.0.0.1',port = '9000', # 或 9000user = 'default',password = 'root',database = 'test_db'
)def test():global clientsql = 'show tables' # show databases;res = client.execute(sql)print(res)if __name__ == '__main__':test()

注：ClickHouse提供两个网络端口： TCP 默认9000，HTTP 默认8123，这里clickhouse_driver.Client连接法，我们要用TCP端口9000

python 驱动：clickhouse-driver 使用的是 tcp 端口： 9000
java 驱动：clickhouse-jdbc 使用的是http 端口： 8123

附：除了clickhouse-driver驱动，还有asynch 等驱动也可实现python连接clickhouse，参考https://github.com/long2ice/asynch,
来自官方文档https://clickhouse.tech/docs/zh/interfaces/third-party/client-libraries/#sidebar-sidebar-10

3. 数据库管理工具连接clickhouse

navicat等不支持连接clickhouse，如下两个软件支持

1）DataGrip连接clickhouse

DataGrip为大名鼎鼎地Jetbrains公司，用过pycharm、idea的对他不陌生，
官方下载链接：https://www.jetbrains.com/zh-cn/datagrip/promo/

安装启动，如下图，点击左上角“+”，再点“Data Source”，再点“ClickHouse”，
在这里插入图片描述
弹出框如下图，输入如下信息：
输入IP：如果是本地，则127.0.0.1
端口：默认HTTP端口 8123。注意不再是TCP端口9000
Clickhouse数据库用户：默认default
Clickhouse数据库密码：默认空，这里我设置了密码，如root
然后点击“编辑驱动设置”
点击Apply，会提示下载驱动，下载后点击“Test Connection”。成功后点OK。
在这里插入图片描述
点如下两个红圈的地方，选中All schemas可以显示所有的库，这里test_db为我新建的库，其他为系统自带。

输入sql 语句：
点击如下，选中一个库，如test_db库，右键 -> new -> Query Console，即可在console框中输入sql语句。
在这里插入图片描述

2）DBeaver连接clickhouse

DataGrip试用期30天，如果没破解，也可以替换为DBeaver，留作备用，也不错，但体验感没有DataGrip好。
如下：
启动软件，点击左上角加号图标，依次如下图点击操作
在这里插入图片描述

输入IP：如果是本地，则127.0.0.1
端口：默认HTTP端口 8123。注意不再是TCP端口9000
Clickhouse数据库用户：默认default
Clickhouse数据库密码：默认空，这里我设置了密码，如root
然后点击“编辑驱动设置”

点击库，点击下载/更新

请添加图片描述
下载驱动，这里一定注意要下载0.2.4版本的驱动，因为这个驱动稳定。双击图中红线位置。

如下，选择0.2.4版本进行下载。

注：其他版本0.2.6试过，不能用，连接失败。

4. 实例

用实例（1000w条数据）对比一下CK和mysql的性能
1）创建表
（1）CK
先建立一个MergeTree()引擎的表test_y

CREATE TABLE test_y
(id UInt64,a String,b String,c String
)ENGINE = MergeTree() 
ORDER BY id

（2）MySQL
先创建一个空表test_y，

create table `test_y` (`id` int(11) unsigned NOT NULL auto_increment,`a` varchar(255) collate utf8_bin NOT NULL default '',`b` varchar(255) collate utf8_bin NOT NULL default '',`c` varchar(255) collate utf8_bin NOT NULL default '',
) ENGINE = InnoDB auto_increment = 1 default charset = utf8 ROW_FORMAT=COMPACT;

2）插入insert
（1）CK
（i）插入1000w 条数据， —— 执行时间：10s

INSERT INTO TABLE test_y SELECT number,concat('A',toString(number)),concat('B',toString(number)),concat('C',toString(number)) FROM numbers(1, 10000000) -- numbers(10000000)表从0开始的1000w条，即0~9999999，numbers(1, 10000000) 表从1开始的1000w条，即1~10000000

（ii）插入10亿条数据， —— 执行时间：0.5h

INSERT INTO TABLE test_y SELECT number,concat('A',toString(number)),concat('B',toString(number)),concat('C',toString(number)) FROM numbers(1, 1000000000)

（2）MySQL
（i）插入1000w条数据， —— 执行时间：2.5h
写入1000w条数据数据，思路是创建存储过程：如proc3()，可将存储过程看成函数proc3()，设置变量 i 自增，最后调用call proc3；

mysql> delimiter $$ -- 将语句的结束符号从分号;临时改为两个$$(可以是自定义)
mysql> create procedure proc3() -- 存储过程名，类似函数, proc = procedure-> begin-> declare i int; -- 声明变量 i-> set i = 1;-> while i < 10000001 do-> insert into test_y (id, a, b, c) values(i, concat('A', i), concat('B', i), concat('C', i));-> set i = i + 1;-> end while;-> end;-> $$
mysql> delimiter ; -- 将语句的结束符号恢复为分号
Query OK, 0 rows affected (0.12 sec)mysql> call proc3; -- 调用存储过程

解析：

默认情况下，存储过程和默认数据库相关联，如果想指定存储过程创建在某个特定的数据库下，那么在过程名前面加数据库名做前缀。 在定义过程时，使用DELIMITER $$ 命令将语句的结束符号从分号 ; 临时改为两个 $$，使得过程体中使用的分号被直接传递到服务器，而不会被客户端（如mysql）解释。

（ii）插入10亿条数据， —— 执行时间：未测试

3) 查询SELECT
（1）CK
（i）查询1000w 条数据， —— 执行时间：1s

SELECT * FROM test_y WHERE b = 'B555555'

（i）查询10亿条数据， —— 执行时间：2.5min

SELECT * FROM test_billion WHERE b = 'B555555'

（2）MySQL
（i）查询1000w 条数据， —— 执行时间：44s

SELECT * FROM test_y WHERE b = 'B555555'

（i）查询10亿条数据， —— 执行时间：未测试
注：mysql把要查询的那字段，加上索引也会飞快！

大数据Clickhouse(CK)

大数据

大数据Clickhouse(CK)

1. Ubuntu下安装

1）下载

2）安装

3）启动

4）登录

5）测试

2. python连接clickhouse （CK）

3. 数据库管理工具连接clickhouse

1）DataGrip连接clickhouse

2）DBeaver连接clickhouse

4. 实例

Published by

风君子

近期文章

标签

书签