Hive行轉列詳解

Hive是Hadoop的數據倉庫系統，可用於數據匯總、查詢和分析。它具有完全相同的功能和特性，可以處理大規模的分散式數據集。Hive的常用操作之一是將行轉列。行轉列是指將一行數據轉換為多列數據，這使得數據更易於處理和分析。

一、Hive行轉列函數

Hive提供了一個方便的函數，可以實現將行轉列，這個函數叫做EXPLODE。EXPLODE的作用是將一個數組類型的列拆分成多行，並且每行只包含一個元素。下面是一個示例：

SELECT col1, col2, col3, EXPLODE(array_col) AS col4 FROM table;

以上示例中，EXPLODE將一個數組類型的列（array_col）拆分成了多行，每行只包含一個元素。EXPLODE創建了一個新的列（col4），其中包含數組中的每個元素。這種方式是最常用也是最基本的Hive行轉列的方法，同時它也是最容易理解的。

二、Hive行轉列後數據丟失

在使用EXPLODE函數時，有時候會遇到數據丟失的情況。這通常是因為EXPLODE操作將一個列拆分成多行時，會丟失其他列的數據。針對這種情況，Hive提供了另外一個函數叫做LATERAL VIEW，它可以保留其他列的數據。

SELECT col1, col2, col3, col4 FROM table LATERAL VIEW EXPLODE(array_col) array_table AS col4;

以上代碼中，LATERAL VIEW操作將EXPLODE的輸出插入到查詢結果的每一行，並且保留其他列。

三、Hive行轉列方法

Hive行轉列有多種方法，包括使用外部腳本、使用多個SELECT語句、使用CASE語句等。下面介紹其中兩種較為常用的方法。

（1）使用外部腳本

使用外部腳本的方法是在Hive中執行一個shell腳本，該腳本將文本數據作為輸入並將輸出返回到Hive。這種方法的優點是可以使用腳本語言處理文本數據，並將其轉換為Hive可以識別的格式。

CREATE EXTERNAL TABLE table1 (column1 string, column2 string, column3 array) LOCATION 'location_of_data';

CREATE TABLE table2 (column1 string, column2 string, column3 string);

INSERT OVERWRITE TABLE table2
SELECT column1, column2, column3
FROM(SELECT column1, column2, EXPLODE(column3) AS column3 FROM table1) AS t1
JOIN(SELECT DISTINCT column3 FROM table1) AS t2 ON t1.column3=t2.column3
ORDER BY column3;

以上代碼中，我們首先創建一個外部表（table1），並將其數據位置指定為某個目錄。然後我們創建一個新表（table2），並指定了3個列。最後我們通過JOIN操作將兩個表進行連接，並將列值以字元串形式返回。ORDER BY操作用於對查詢結果進行排序。

（2）使用多個SELECT語句

使用多個SELECT語句的方法是將多個SELECT語句結合在一起，使得每個SELECT語句只返回一行數據。這種方法通常比較複雜，但是可以靈活地處理不同類型的輸入數據。

CREATE TABLE table1 (column1 string, column2 string, column3 string);

INSERT INTO TABLE table1 SELECT '1', '2', '11,12,13';

CREATE TABLE table2 (column1 string, column2 string, column3 string);

INSERT INTO TABLE table2 SELECT column1, column2, column3 FROM table1 WHERE column1='1';

CREATE TABLE table3 (column1 string, column2 string, column3 string);

INSERT INTO TABLE table3 SELECT split(column3,',')[0] AS column1, split(column3,',')[1] AS column2, split(column3,',')[2] AS column3 FROM table2;

SELECT column1, column2, column3 FROM table3;

以上代碼中，我們首先創建了一個包含三個列的表（table1），並向其中插入了一行數據。然後我們創建了一個新表（table2），並將數據從table1中提取出來。接下來，我們創建了一個新表（table3），其中包含了以第三列分隔符為界拆分出來的三個新列。最後，我們使用SELECT語句從table3中查詢目標列並返回。

四、Hive行轉列SQL

進行Hive行轉列時，通常需要使用SQL語句。下面是一些Hive常用的行轉列SQL語句。

（1）Hive行轉列排序

有時候我們需要將行轉列後的數據進行排序，以便更好地分析和處理。下面是一些可用於對Hive行轉列後的數據進行排序的SQL語句。

SELECT * FROM (SELECT col1, EXPLODE(array_col) AS col2 FROM table) subq ORDER BY col2;

SELECT col1, COLLECT_SET(col2) AS col2_sort FROM (SELECT col1, EXPLODE(array_col) AS col2 FROM table) subq GROUP BY col1 ORDER BY col1;

以上代碼中，第一條語句將EXPLODE函數的輸出插入到一個名為subq的子查詢中，並按照col2進行排序。第二條語句使用COLLECT_SET函數將所有的col2值組合成一個集合，然後按照col1分組並將其組合成一個col2_sort列。

（2）Hive行轉列列轉行

有時候我們需要將列轉行，這時候我們需要使用TRANSPOSE函數。TRANSPOSE是Hive提供的一種易於使用的行轉列函數，它可以將列轉換為行，並按照每個值有一個列。

SELECT TRANSPOSE(MAP(col1, col2)) as (new_column) FROM table;

以上代碼中，我們使用了TRANSPOSE函數和MAP函數將列轉換為行，並按照每個值有一個列。新的列名為new_column。

（3）Hive行轉列同時轉多行

有時候我們需要將一個列中的多條記錄同時轉換為多行格式，這時候我們需要使用STACK函數。STACK是一個非常有用的函數，可以同時將多行數據轉換為多列數據，並且可以按照每個值有一個列的方式排列。

SELECT col1, STACK(3, col2_1, col2_2, col2_3) FROM (SELECT col1, col2, row_number() OVER(PARTITION BY col1 ORDER BY col1) AS rk FROM table) subq1
PIVOT(MAX(col2) FOR rk IN (1,2,3))subq2;

以上代碼中，我們使用了ROW_NUMBER函數對每行分組，並將結果存儲在一個名為rk的列中。然後我們使用PIVOT轉換來將多行數據轉換為多列數據。最後，我們使用STACK函數將這些列按照每個值有一個列的方式排列。

五、Hive行列轉換

將行轉列是Hive中常用的處理方法之一，也有時候需要將列轉行，這時候我們需要使用TRANSPOSE函數。TRANSPOSE是Hive提供的一種易於使用的行轉列函數，可以將列轉換為行，並按照每個值有一個列的方式排列。

總之，Hive行轉列是處理大型數據集的一個關鍵步驟，可以將數據轉換為易於分析和處理的格式。在本文中，我們介紹了Hive行轉列的幾種方法，並提供了一些常用的SQL語句供讀者參考。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/192459.html