Clickhouse建表詳解

一、Clickhouse建表欄位注釋

在使用clickhouse進行建表時，為了方便後續使用和管理，建議對表中的欄位添加註釋，注釋可以使用單行注釋（–）或多行注釋（/* */）進行添加。例如：

CREATE TABLE test (
    -- 用戶ID
    user_id UInt64,
    -- 用戶名稱
    user_name String,
    -- 用戶狀態（0未激活，1已激活）
    user_status Int8
) ENGINE = MergeTree()

在表格的欄位說明中添加註釋，有利於你和其他開發人員在日常工作中快速理解表的結構。

二、Clickhouse建表引擎

clickhouse支持多種引擎類型，每個引擎都有各自的優點和適用場景，建議在建表時根據實際需求選擇適合的引擎類型。常用的引擎有：

MergeTree: 合併樹引擎，適用於時序數據的存儲和查詢。
Log: 日誌引擎，適用於批量寫入和只需順序讀的場景。
Memory: 內存引擎，適用於數據量不大但是需要實時查詢和更新的場景。

例如：

CREATE TABLE test (
    user_id UInt64,
    user_name String,
    user_status Int8
) ENGINE = MergeTree()
PARTITION BY toYYYYMMDD(create_time)
ORDER BY (user_id)
SETTINGS index_granularity = 8192;

三、Clickhouse建表加集群

clickhouse支持通過分散式集群架構實現海量數據的存儲和處理。分散式集群將數據分片存儲，各個節點之間進行數據通信和負載均衡，提高數據的存取、處理效率和容錯性。在建表時可以指定集群的地址、用戶名和密碼等信息，在創建表的同時將表分布在多台機器上。例如：

CREATE TABLE test (
    user_id UInt64,
    user_name String,
    user_status Int8
) ENGINE = Distributed(cluster_name, default, test, rand());

四、Clickhouse建表詳解

clickhouse的詳細選項非常多，常用的有表類型（create table）、分區方式（partition by）、表內容排序（order by）、TTL、索引等。為了方便使用和管理，建議熟悉這些選項的用法和場景，並根據實際需求進行選擇和設置。例如：

CREATE TABLE test (
    user_id UInt64,
    user_name String,
    user_status Int8,
    create_time DateTime DEFAULT now()
) ENGINE = MergeTree()
PARTITION BY toYYYYMMDD(create_time)
ORDER BY (user_id)
SETTINGS index_granularity = 8192
TTL create_time + INTERVAL 7 DAY;

五、Clickhouse建表優化

clickhouse建表優化的核心思想是控制數據的粒度，減少不必要的數據讀取和計算。建議對錶的欄位進行優化，包括欄位類型、長度、精度、是否為nullable等；對數據進行壓縮和裁剪，以減少存儲和讀取的數據量，例如剔除不必要的冗餘數據、使用LowCardinality類型等。另外，合理的分區方式、索引、TTL設置等措施也能有效提高表的查詢和變更效率。例如：

CREATE TABLE test (
    user_id UInt32,
    user_name Nullable(String),
    user_status LowCardinality(String),
    create_time DateTime DEFAULT now(),
    `date` Date DEFAULT toDate(create_time)
) ENGINE = MergeTree()
PARTITION BY toYYYYMMDD(create_time)
ORDER BY (user_id)
SETTINGS index_granularity = 8192
TTL create_time + INTERVAL 7 DAY;

六、Clickhouse建表分區

通過分區方式可以將數據分散到不同的數據節點上，降低單節點處理數據的工作量，提高整個集群的查詢和讀寫性能。clickhouse支持多種分區方式，例如按時間、按值區間、按hash等，建議根據實際場景和數據量選擇合適的方式。例如：

CREATE TABLE test (
    user_id UInt32,
    user_name String,
    user_status String,
    create_time DateTime DEFAULT now()
) ENGINE = MergeTree()
PARTITION BY toYYYYMMDD(create_time)
ORDER BY (user_id)
SETTINGS index_granularity = 8192;

七、Clickhouse建表自增主鍵

clickhouse沒有內置的自增主鍵功能，但是可以通過使用UUID或者hash等演算法來替代自增主鍵。例如：

CREATE TABLE test (
    id UUID DEFAULT UUIDString(),
    user_id UInt64,
    user_name String,
    user_status String,
    create_time DateTime DEFAULT now()
) ENGINE = MergeTree()
PARTITION BY toYYYYMMDD(create_time)
ORDER BY (id)
SETTINGS index_granularity = 8192;

八、Clickhouse建表語句附默認值

clickhouse支持使用默認值來設置表的默認欄位值。例如：

CREATE TABLE test (
    user_id UInt64,
    user_name String DEFAULT 'unknown',
    user_status String,
    create_time DateTime DEFAULT now()
) ENGINE = MergeTree()
PARTITION BY toYYYYMMDD(create_time)
ORDER BY (user_id)
SETTINGS index_granularity = 8192;

九、Clickhouse建表設置TTL

TTL（Time to Live）可以用來定期清理過期數據，以減少集群存儲的數據量及查詢處理時間。clickhouse支持在表創建時設置TTL。例如：

CREATE TABLE test (
    user_id UInt64,
    user_name String,
    user_status String,
    create_time DateTime DEFAULT now()
) ENGINE = MergeTree()
PARTITION BY toYYYYMMDD(create_time)
ORDER BY (user_id)
SETTINGS index_granularity = 8192
TTL create_time + INTERVAL 7 DAY;

總結

本文對clickhouse建表進行了詳細的闡述，包括建表欄位注釋、建表引擎、建表加集群、建表詳解、建表優化、建表分區、建表自增主鍵、建表語句附默認值、建表設置TTL等方面。希望本文能夠對初學者和使用者提供一些參考和幫助。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/271651.html