您好,登錄后才能下訂單哦!
本文小編為大家詳細(xì)介紹“數(shù)據(jù)庫ClickHouse在大數(shù)據(jù)領(lǐng)域怎么應(yīng)用”,內(nèi)容詳細(xì),步驟清晰,細(xì)節(jié)處理妥當(dāng),希望這篇“數(shù)據(jù)庫ClickHouse在大數(shù)據(jù)領(lǐng)域怎么應(yīng)用”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來學(xué)習(xí)新知識吧。
面向大數(shù)據(jù)量查詢數(shù)據(jù)庫,優(yōu)點是在較大數(shù)據(jù)量(千萬級)的前提下具有較好的查詢性能。
ClickHouse應(yīng)用于OLAP(在線分析處理)領(lǐng)域,具體來說滿足如下特點使用此技術(shù)比較合適:
事務(wù)型數(shù)據(jù)庫表通過連表查詢轉(zhuǎn)換成寬表
聚合(統(tǒng)計)計算使用較多
對查詢效率要求較高,有限時間范圍內(nèi)能夠容忍非冪等性查詢(最終一致性)
大多數(shù)學(xué)習(xí)ClickHouse是從OLTP數(shù)據(jù)庫開始的,比如Mysql數(shù)據(jù)庫。對于千萬級別的數(shù)據(jù),以InnoDB為存儲引擎的表,僅僅是統(tǒng)計表行數(shù)這一需求,執(zhí)行效率很低,對于一些聚合函數(shù),相應(yīng)延遲同樣無法接受。
提高數(shù)據(jù)庫硬件水平,一定程度上能夠改善查詢效率問題,但仍然不能徹底解決查詢效率問題。ClickHouse一推出就大火更加印證開發(fā)者在較大數(shù)據(jù)量的前提下希望有個合理查詢效率的需求是多么的急切。
以典型的Mysql數(shù)據(jù)庫讀寫分離為例,橫向?qū)Ρ菴lickHouse,對比Mysql為何查詢慢以及ClickHouse為何查詢要快,在此基礎(chǔ)上綜合考慮OLTP如何與OLAP協(xié)同工作。
數(shù)據(jù)量在超過一定邊界后,查詢效率急劇下降,造成查詢效率低下的主要原因是磁盤IO。比如Mysql數(shù)據(jù)庫,通過服務(wù)器優(yōu)化(增加硬件資源消耗),能夠提高一定的性能,并不能從軟件層次有效提高查詢效率。
千萬級別的大表,查詢性能較低,主要涉及磁盤這塊,影響因素有兩條:一是數(shù)據(jù)索引定位;二是磁盤IO。
操作系統(tǒng)從磁盤讀取數(shù)據(jù)到內(nèi)存中,大體經(jīng)過如下過程:索引到數(shù)據(jù)存儲位置;以頁為單位IO數(shù)據(jù)。其中數(shù)據(jù)索引完畢,IO過程相對較快(速度與內(nèi)存IO不是一個數(shù)量級)。
磁盤頁IO表示在磁盤頁上命中一條記錄與全部命中,IO時間相同。實際使用過程中,查詢一條記錄與多條連續(xù)記錄有時候時間相似(底層邏輯都是從磁盤IO一個磁盤頁的數(shù)據(jù))。
通過簡單示例比較按行存儲與按列存儲對查詢的影響,主要以磁盤IO最為技術(shù)指標(biāo)。測試數(shù)據(jù)量為千萬級別。
CREATE TABLE `human_name` ( `id` bigint(20) NOT NULL COMMENT 'ID', `name` varchar(32) DEFAULT NULL COMMENT '名稱', `deleted` tinyint(1) NOT NULL DEFAULT '0' COMMENT '邏輯刪除', `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '創(chuàng)建時間', `update_time` datetime DEFAULT NULL ON UPDATE CURRENT_TIMESTAMP COMMENT '更新時間', `delete_time` datetime DEFAULT NULL COMMENT '刪除時間', PRIMARY KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='人名信息表';
通過不同的場景,對比不同存儲方式在磁盤IO上的消耗,進而比較查詢效率。
(1)通過id查詢name
存儲方式 | 索引方式 | 磁盤IO | 執(zhí)行過程 |
---|---|---|---|
行存儲 | 哈希索引O(1) BTree索引O(logN) | 整行數(shù)據(jù) | 磁盤上執(zhí)行選擇操作,內(nèi)存執(zhí)行投影操作 |
列存儲 | 主鍵稀疏索引+二級索引 | 單行name列數(shù)據(jù) | 在磁盤上執(zhí)行選擇操作同時完成了投影操作 |
行存儲在索引上節(jié)約時間;列存儲在磁盤IO上節(jié)約時間,數(shù)據(jù)量較小可以忽略差異,本回合二者持平。
(2)通過批id查詢name
批查詢是指有限區(qū)間查詢或者有限集合查詢,數(shù)據(jù)量百條以內(nèi)。有限區(qū)間查詢與有限集合查詢,對應(yīng)的數(shù)據(jù)量較小,性能表現(xiàn)差別不大。仔細(xì)分析過程,二者仍然存在明顯的差異。
區(qū)間查詢的效率比有限集合查詢效率要高,原因如下:區(qū)間查詢數(shù)據(jù)存儲是連續(xù)的,單次數(shù)據(jù)索引,單頁磁盤IO(數(shù)據(jù)量較?。o湊的數(shù)據(jù)查詢,按行存儲略占優(yōu)勢,考慮到是查詢單個字段,因此磁盤數(shù)據(jù)索引次數(shù)均為一次(按列查詢多少列即索引多少次)。
集合查詢由于查詢條件非連續(xù),需要單獨索引并完成磁盤IO,集合中有N個元素(隨機)需要索引N次,以頁為單位的磁盤IO
(3)通過id查詢整行數(shù)據(jù)
按列存儲通常比按行存儲的查詢效率要高,對于寬表(幾十列以上的聚合表),效果更加明顯。對于查詢,更多的需求是查詢某列數(shù)據(jù)或者某幾列數(shù)據(jù),按列存儲的數(shù)據(jù)庫能夠大大減少磁盤數(shù)據(jù)的掃描范圍以及磁盤與內(nèi)存之間的IO,從IO層面提高了查詢效率。
極端情況
數(shù)據(jù)庫存儲id和name數(shù)據(jù),兩者都是非空的必選數(shù)據(jù),這種情況下按行(列)存儲從IO層面來講是相似的,數(shù)據(jù)在磁盤上掃描范圍和讀寫IO差不多。通過id查詢name或者批量id查詢name,借助于哈希索引,按行存儲可能具有O(1)的時間復(fù)雜度。
實際數(shù)據(jù)不可能這么純粹,行記錄通常會有保存時間、修改時間、刪除時間、部分核心字段的修改時間,數(shù)據(jù)量較少時,附屬字段對查詢的影響較小,一旦數(shù)據(jù)量超過一定閥值,對查詢的影響逐步凸顯。按列存儲能夠忽略附屬字段的磁盤掃描與IO。
綜合來講,從查詢的角度來講,按列存儲要優(yōu)于按行存儲。
clickhouse使用的表結(jié)構(gòu)與常見的關(guān)系數(shù)據(jù)庫有一定的區(qū)別。
在合并樹家族引擎中,表排序?qū)傩允潜剡x項。通過ORDER BY
關(guān)鍵字設(shè)置分區(qū)內(nèi)數(shù)據(jù)的排序策略,數(shù)據(jù)在導(dǎo)入或者保存時按照排序策略有序存儲,有序數(shù)據(jù)直接存儲在磁盤中,查詢時具有較高的效率。
排序列也是索引列,高頻用作查詢條件的字段添加到排序列有利于提高查詢效率。
主鍵的定義比較奇怪,僅僅是起到過濾查詢索引的作用,沒有唯一約束的效果。
當(dāng)設(shè)置有主鍵時,主鍵字段必需包含在排序?qū)傩灾校覐淖蟮接乙来握归_。
Null類型幾乎總是會拖累性能,原因如下:空值無法被索引;需要使用額外的特殊占位符單獨處理。按列存儲每列數(shù)據(jù)個數(shù)一致有利于數(shù)據(jù)查詢。
數(shù)據(jù)在導(dǎo)入之前需要做空值處理,將空值替換成與業(yè)務(wù)無關(guān)的數(shù)據(jù)。
clickhouse表引擎非常豐富,其中最常用的是合并樹家族引擎。
MergeTree引擎能夠?qū)崿F(xiàn)較大數(shù)據(jù)量的查詢需求,由于主鍵沒有唯一索引約束,存在重復(fù)行的情況。在數(shù)據(jù)遷移的過程中,不可避免會出現(xiàn)重復(fù)數(shù)據(jù)導(dǎo)入的情況,業(yè)務(wù)上能夠容忍部分重復(fù)數(shù)據(jù),或者從應(yīng)用端處理重復(fù)數(shù)據(jù),可以選擇此引擎。
CREATE TABLE test_tbl ( id UInt16, create_time Date, comment Nullable(String) ) ENGINE = MergeTree() PARTITION BY toYYYYMMDD(create_time) ORDER BY (create_time) PRIMARY KEY (id) TTL create_time + INTERVAL 1 MONTH SETTINGS index_granularity=8192;
MergeTree
引擎必需指定排序字段。
屬性 | 含義 | 備注 |
---|---|---|
ORDER BY | 指定排序字段(必選) | 指定一個或者多個字段作為排序字段(分區(qū)內(nèi)排序) |
PARTITION BY | 指定分區(qū)規(guī)則 | 一般而言以日期作為表分區(qū)的策略 |
PRIMARY KEY | 主鍵字段 | 主鍵元素可以重復(fù)并且能夠指定多個字段 |
TTL | 記錄過期時間 | 可以指定記錄的過期時間 |
SETTINGS | 稀疏索引間隔 | 無特別需求使用默認(rèn)值即可 |
MergeTree的主鍵的作用是加速查詢,不是類似MySQL保持記錄唯一。
ReplacingMergeTree引擎用來去除重復(fù)行,此處的去重有三個層次的含義:在分區(qū)內(nèi)去重;以主鍵字段為比較對象;數(shù)據(jù)去重實踐只會在合并時發(fā)生。
-- 強制后臺合并,去重時所在表停止服務(wù) optimize table test_tbl_replacing final;
ReplacingMergeTree提供了主鍵去重的能力,但是仍舊有以下限制:
optimize是后臺動作,無法預(yù)測具體執(zhí)行時間點;
在沒有徹底optimize之前,不能確定是否仍有重復(fù)數(shù)據(jù);
手動執(zhí)行optimize在海量數(shù)據(jù)場景下要消耗大量時間,無法滿足業(yè)務(wù)即時查詢的需求;
在分布式場景下,相同primary key的數(shù)據(jù)可能被sharding到不同節(jié)點上,不同shard間可能無法去重;
ReplacingMergeTree更多用于確保數(shù)據(jù)最終被去重,無法保證查詢過程中主鍵不重復(fù)。
ReplacingMergeTree(create_time)填入?yún)?shù)為版本字段,重復(fù)記錄保留版本號最大最在行;允許為空,默認(rèn)保留重復(fù)行最后插入的記錄。
去重深刻理解
這里的去重并不能達到關(guān)系型數(shù)據(jù)庫嚴(yán)格意義去重的目的,使用時需要注意這個現(xiàn)象。另外不能以非黑即白的想法考慮這個問題,ClickHouse在提高查詢速度時做了一定的妥協(xié)。
SummingMergeTree提供的是一種預(yù)聚合引擎,等效為以order by
字段為單位分組,然后執(zhí)行聚合求和操作,不過這些結(jié)果是提前計算好了的,查詢時不需要實時計算。
如果聚合的值不滿足要求,可以在查詢結(jié)果集上通過聚合函數(shù)再次聚合,此時屬于實時計算。
常見的內(nèi)置函數(shù)需要特別指出,新建表模式、數(shù)據(jù)導(dǎo)入等方面會有應(yīng)用。
格式化分區(qū)函數(shù)常用于表的分區(qū)設(shè)置,以天為單位的分區(qū)是常見的分區(qū)設(shè)置。
select toYYYYMMDD(now())
以name字段的哈希字符串作為分區(qū)策略。
CREATE TABLE default.test02 ( `id` UInt16, `name` String, `create_time` Date) ENGINE = MergeTree() PARTITION BY LOWER(hex(MD5(name))) PRIMARY KEY id ORDER BY (id,create_time);
表可以不設(shè)置主鍵,一旦設(shè)置主鍵,那么表必選排序?qū)傩员匦枰灾麈I的順序依次展開。
直接用原始字符串字段值作為分區(qū)策略也是可行的,考慮到字符串的值域范圍比較廣,用哈希函數(shù)處理會比較安全。
獲取各種日期函數(shù),如果不指定時區(qū),默認(rèn)讀取宿主機的時區(qū)信息。
SELECT toDateTime(now()) AS t1, toDate(now()) AS t2, toDate(now(), 'Asia/Shanghai') AS t3, toString(now()) AS t4
版本選擇長期支持版本20.8
,采用手動安裝的方式進行。
rpm -ivh clickhouse-server-20.8.19.4-2.noarch.rpm rpm -ivh clickhouse-client-20.8.19.4-2.noarch.rpm rpm -ivh clickhouse-common-static-20.8.19.4-2.x86_64.rpm
使用模式<!-[\s\S]*?->$
查詢配置XML配置文件中所有注釋。
# 格式化XML文件 xmllint --format config.xml
服務(wù)端配置文件有兩個config.xml
和users.xml
,前者是只讀配置,后者可以在運行時動態(tài)修改。
讀到這里,這篇“數(shù)據(jù)庫ClickHouse在大數(shù)據(jù)領(lǐng)域怎么應(yīng)用”文章已經(jīng)介紹完畢,想要掌握這篇文章的知識點還需要大家自己動手實踐使用過才能領(lǐng)會,如果想了解更多相關(guān)內(nèi)容的文章,歡迎關(guān)注億速云行業(yè)資訊頻道。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。