卡方分箱詳解

一、什麼是卡方分箱

卡方分箱(Chi-Square Binning),又稱卡方分割,是一種將連續變量離散化的方法。它通過計算變量的卡方統計量來確定最優劃分點,將變量劃分為多個區間進行分析。

換句話說,卡方分箱是將連續變量(如年齡、收入等)按照分割點分成不同區間(如年齡層、收入層等)的方法,使各個區間的變量分佈差異最大化,從而提升變量的預測能力。

二、卡方分箱的步驟

卡方分箱的步驟如下:

1、將連續變量按照分割方式劃分為k個區間(或分段)。

2、計算每個區間內的數據個數,以及每個區間內目標變量的個數。

3、計算每個區間內目標變量的期望值,期望值為該區間內目標變量的總數除以總樣本數。

4、計算卡方值,卡方值用于衡量觀測值與期望值的偏離程度,卡方值越大,偏離程度越大。

5、計算相鄰區間的卡方值,以及相鄰區間合併後的總卡方值。

6、將相鄰的卡方值最小的區間進行合併,得到新的k-1個區間。

7、重複步驟2至步驟6,直到滿足某個終止條件(如卡方值小於某個閾值、區間數達到預設值等)。

8、根據分割點將連續變量離散化為k-1個區間。

三、代碼示例

import numpy as np
import pandas as pd
from scipy.stats import chi2_contingency

def chi_merge(df, col, target_col, bin_num=5, confidence_level=3.84):
    """
    進行卡方分箱的函數
    :param df: 數據集
    :param col: 需要分箱的列名
    :param target_col: 目標列名
    :param bin_num: 分箱數目,默認為5
    :param confidence_level: 置信度水平,默認為0.95
    :return: 分箱結果,包括區間、實際樣本數、目標樣本數、期望樣本數、卡方值、p值、是否需要合併
    """
    bins = pd.qcut(df[col], q=bin_num, duplicates='drop')
    summary = df.groupby(bins).agg({
        col: ['min', 'max', 'count'],
        target_col: ['sum', 'mean']
    })
    summary.columns = ['_'.join(col).strip() for col in summary.columns.values]

    intervals = [(summary[col]['min'], summary[col]['max'])
                 for col in summary.columns.values if col.endswith('count')]
    while True:
        p_values = []
        for i in range(len(intervals) - 1):
            obs = np.array([[summary.loc[intervals[i], target_col_sum],
                             summary.loc[intervals[i], col_count] - summary.loc[intervals[i], target_col_sum]],
                            [summary.loc[intervals[i + 1], target_col_sum],
                             summary.loc[intervals[i + 1], col_count] - summary.loc[intervals[i + 1], target_col_sum]]])
            _, p_value, _, _ = chi2_contingency(obs, correction=False)
            p_values.append(p_value)
        if np.min(p_values) > confidence_level:
            break
        index = p_values.index(np.min(p_values))
        intervals[index] = (intervals[index][0], intervals[index + 1][1])
        intervals.pop(index + 1)

    result = pd.DataFrame({
        '區間': intervals,
        '實際樣本數': [summary.loc[intv, col_count] for intv in intervals],
        '目標樣本數': [summary.loc[intv, target_col_sum] for intv in intervals]
    })

    n = df[target_col].sum()
    b = len(intervals) - 1
    k = 2
    alpha = 1 - confidence_level
    chi_value = chi2.isf(alpha, df=k-1)

    while True:
        exp_values = np.zeros(b)
        for i in range(b):
            exp_values[i] = (summary.loc[intervals[i], col_count] +
                             summary.loc[intervals[i+1], col_count]) * result['目標樣本數'].sum() / n
        obs_values = result['目標樣本數'].values
        chi_square = ((obs_values - exp_values)**2 / exp_values).sum()
        if chi_square < chi_value:
            break
        min_index = np.argmin(exp_values)
        intervals = sorted(intervals)
        intervals[min_index] = (intervals[min_index][0], intervals[min_index+1][1])
        intervals.pop(min_index+1)
        result['需要合併'][min_index] = True
        b -= 1

    result['期望樣本數'] = exp_values
    result['卡方值'] = (obs_values - exp_values)**2 / exp_values
    result['p值'] = [chi2.sf(chi, df=1) for chi in result['卡方值']]
    result['需要合併'] = False

    return result

四、卡方分箱的優缺點

卡方分箱的優點:

1、卡方分箱可將連續變量離散化,消除線性關係對模型的影響。

2、卡方分箱是一種無監督學習方法,不需要事先了解目標變量的分佈。

3、卡方分箱能夠將數據降維,降低模型計算複雜度。

卡方分箱的缺點:

1、卡方分箱生成的區間數目較少,可能對於數據的分佈不夠精細。

2、卡方分箱會丟失變量之間的線性關係,有些情況下線性關係對預測是有幫助的。

3、卡方分箱不擅長處理極端值和缺失值,可能需要特殊處理。

五、卡方分箱的應用場景

卡方分箱可以應用於任何需要將連續變量離散化的場景,尤其適用於以下幾種情況:

1、前處理:在建立模型之前,需要對特徵進行處理,將連續變量離散化。

2、解決非線性關係:在特徵和目標變量之間存在非線性關係時,可以使用卡方分箱解決。

3、計算信息增益:在進行決策樹等模型中,需要計算各個特徵的信息增益,卡方分箱可以將連續變量離散化,便於計算信息增益。

六、總結

卡方分箱是一種將連續變量離散化的方法,它通過計算變量的卡方統計量來確定最優劃分點,將變量劃分為多個區間進行分析。卡方分箱可以應用於任何需要將連續變量離散化的場景,並且適用於解決非線性關係、計算信息增益等問題。

原創文章,作者:AXWQB,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/368528.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
AXWQB的頭像AXWQB
上一篇 2025-04-12 01:13
下一篇 2025-04-12 01:13

相關推薦

  • Linux sync詳解

    一、sync概述 sync是Linux中一個非常重要的命令,它可以將文件系統緩存中的內容,強制寫入磁盤中。在執行sync之前,所有的文件系統更新將不會立即寫入磁盤,而是先緩存在內存…

    編程 2025-04-25
  • 神經網絡代碼詳解

    神經網絡作為一種人工智能技術,被廣泛應用於語音識別、圖像識別、自然語言處理等領域。而神經網絡的模型編寫,離不開代碼。本文將從多個方面詳細闡述神經網絡模型編寫的代碼技術。 一、神經網…

    編程 2025-04-25
  • Linux修改文件名命令詳解

    在Linux系統中,修改文件名是一個很常見的操作。Linux提供了多種方式來修改文件名,這篇文章將介紹Linux修改文件名的詳細操作。 一、mv命令 mv命令是Linux下的常用命…

    編程 2025-04-25
  • Python輸入輸出詳解

    一、文件讀寫 Python中文件的讀寫操作是必不可少的基本技能之一。讀寫文件分別使用open()函數中的’r’和’w’參數,讀取文件…

    編程 2025-04-25
  • nginx與apache應用開發詳解

    一、概述 nginx和apache都是常見的web服務器。nginx是一個高性能的反向代理web服務器,將負載均衡和緩存集成在了一起,可以動靜分離。apache是一個可擴展的web…

    編程 2025-04-25
  • MPU6050工作原理詳解

    一、什麼是MPU6050 MPU6050是一種六軸慣性傳感器,能夠同時測量加速度和角速度。它由三個傳感器組成:一個三軸加速度計和一個三軸陀螺儀。這個組合提供了非常精細的姿態解算,其…

    編程 2025-04-25
  • 詳解eclipse設置

    一、安裝與基礎設置 1、下載eclipse並進行安裝。 2、打開eclipse,選擇對應的工作空間路徑。 File -> Switch Workspace -> [選擇…

    編程 2025-04-25
  • C語言貪吃蛇詳解

    一、數據結構和算法 C語言貪吃蛇主要運用了以下數據結構和算法: 1. 鏈表 typedef struct body { int x; int y; struct body *nex…

    編程 2025-04-25
  • Python安裝OS庫詳解

    一、OS簡介 OS庫是Python標準庫的一部分,它提供了跨平台的操作系統功能,使得Python可以進行文件操作、進程管理、環境變量讀取等系統級操作。 OS庫中包含了大量的文件和目…

    編程 2025-04-25
  • Java BigDecimal 精度詳解

    一、基礎概念 Java BigDecimal 是一個用於高精度計算的類。普通的 double 或 float 類型只能精確表示有限的數字,而對於需要高精度計算的場景,BigDeci…

    編程 2025-04-25

發表回復

登錄後才能評論