Python程序員的必備技能 – 將值按比例縮放

一、為什麼要進行比例縮放？

在數據分析領域，數據往往來自各種渠道，而這些數據的規模、取值範圍等都可能不一樣。有時候，為了進行更好的分析和可視化，需要將數據值進行比例縮放。

比如，某個數據集中有兩列數據，一列數值的範圍是0到100，另一列數值的範圍是0到10000。如果不進行比例縮放，這兩列數據在同一個圖中展示的效果便不太好。這時候，我們可以將數值縮放到同一個範圍內，使它們的差異更加明顯，同時展示更加優秀的圖表。

二、如何進行比例縮放？

Python中有多種方便的方法可以進行比例縮放，下面我們來介紹其中兩種：

1. Min-Max縮放

Min-Max縮放, 是一種常見的數據歸一化方法。它通過將每個數據映射到[0,1]之間的值，將數據縮放到某一固定範圍內。

def min_max_scale(data):
    """
    Min-Max縮放公式
    (x - min)/(max - min)
    """
    max_val = max(data)
    min_val = min(data)
    return [ (x - min_val)/(max_val - min_val) for x in data]

data = [1,2,3,4,5]
scaled_data = min_max_scale(data)
print(scaled_data)

上面的代碼中，我們定義了一個min_max_scale()函數以進行比例縮放。它使用了縮放公式 (x – min)/(max – min)，將數據集中的值縮放到[0,1]範圍內。實際應用的時候，可以根據數據的分布情況選擇適當的縮放範圍。

2. Z-score規範化

Z-score規範化是另一種常見的數據歸一化方法。它通過將數據縮放為均值為0，標準差為1的分布，從而縮放數據的比例。

import numpy as np

def z_score_scale(data):
    """
    Z-score規範化公式
    (x - mean) / sd
    """
    mean_val = np.mean(data)
    sd_val = np.std(data)
    return [(x-mean_val)/sd_val for x in data]

data = [1,2,3,4,5]
scaled_data = z_score_scale(data)
print(scaled_data)

上面代碼中，我們使用了Python的NumPy庫，通過z_score_scale()函數將數據集中的值縮放為均值為0，標準差為1的分布。通過使用該方法，我們可以更好地了解數據的分布情況。

三、小結

比例縮放是數據分析中常見而又重要的程序員技能。在Python中，我們可以使用min-max縮放或者Z-score規範化等方法對數據進行比例縮放。正確使用比例縮放方法，可以讓數據更容易分析和可視化，從而幫助我們更好地理解數據。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/303092.html