卡方分箱详解

一、什么是卡方分箱

卡方分箱（Chi-Square Binning），又称卡方分割，是一种将连续变量离散化的方法。它通过计算变量的卡方统计量来确定最优划分点，将变量划分为多个区间进行分析。

换句话说，卡方分箱是将连续变量（如年龄、收入等）按照分割点分成不同区间（如年龄层、收入层等）的方法，使各个区间的变量分布差异最大化，从而提升变量的预测能力。

二、卡方分箱的步骤

卡方分箱的步骤如下：

1、将连续变量按照分割方式划分为k个区间（或分段）。

2、计算每个区间内的数据个数，以及每个区间内目标变量的个数。

3、计算每个区间内目标变量的期望值，期望值为该区间内目标变量的总数除以总样本数。

4、计算卡方值，卡方值用于衡量观测值与期望值的偏离程度，卡方值越大，偏离程度越大。

5、计算相邻区间的卡方值，以及相邻区间合并后的总卡方值。

6、将相邻的卡方值最小的区间进行合并，得到新的k-1个区间。

7、重复步骤2至步骤6，直到满足某个终止条件（如卡方值小于某个阈值、区间数达到预设值等）。

8、根据分割点将连续变量离散化为k-1个区间。

三、代码示例

import numpy as np
import pandas as pd
from scipy.stats import chi2_contingency

def chi_merge(df, col, target_col, bin_num=5, confidence_level=3.84):
    """
    进行卡方分箱的函数
    :param df: 数据集
    :param col: 需要分箱的列名
    :param target_col: 目标列名
    :param bin_num: 分箱数目，默认为5
    :param confidence_level: 置信度水平，默认为0.95
    :return: 分箱结果，包括区间、实际样本数、目标样本数、期望样本数、卡方值、p值、是否需要合并
    """
    bins = pd.qcut(df[col], q=bin_num, duplicates='drop')
    summary = df.groupby(bins).agg({
        col: ['min', 'max', 'count'],
        target_col: ['sum', 'mean']
    })
    summary.columns = ['_'.join(col).strip() for col in summary.columns.values]

    intervals = [(summary[col]['min'], summary[col]['max'])
                 for col in summary.columns.values if col.endswith('count')]
    while True:
        p_values = []
        for i in range(len(intervals) - 1):
            obs = np.array([[summary.loc[intervals[i], target_col_sum],
                             summary.loc[intervals[i], col_count] - summary.loc[intervals[i], target_col_sum]],
                            [summary.loc[intervals[i + 1], target_col_sum],
                             summary.loc[intervals[i + 1], col_count] - summary.loc[intervals[i + 1], target_col_sum]]])
            _, p_value, _, _ = chi2_contingency(obs, correction=False)
            p_values.append(p_value)
        if np.min(p_values) > confidence_level:
            break
        index = p_values.index(np.min(p_values))
        intervals[index] = (intervals[index][0], intervals[index + 1][1])
        intervals.pop(index + 1)

    result = pd.DataFrame({
        '区间': intervals,
        '实际样本数': [summary.loc[intv, col_count] for intv in intervals],
        '目标样本数': [summary.loc[intv, target_col_sum] for intv in intervals]
    })

    n = df[target_col].sum()
    b = len(intervals) - 1
    k = 2
    alpha = 1 - confidence_level
    chi_value = chi2.isf(alpha, df=k-1)

    while True:
        exp_values = np.zeros(b)
        for i in range(b):
            exp_values[i] = (summary.loc[intervals[i], col_count] +
                             summary.loc[intervals[i+1], col_count]) * result['目标样本数'].sum() / n
        obs_values = result['目标样本数'].values
        chi_square = ((obs_values - exp_values)**2 / exp_values).sum()
        if chi_square < chi_value:
            break
        min_index = np.argmin(exp_values)
        intervals = sorted(intervals)
        intervals[min_index] = (intervals[min_index][0], intervals[min_index+1][1])
        intervals.pop(min_index+1)
        result['需要合并'][min_index] = True
        b -= 1

    result['期望样本数'] = exp_values
    result['卡方值'] = (obs_values - exp_values)**2 / exp_values
    result['p值'] = [chi2.sf(chi, df=1) for chi in result['卡方值']]
    result['需要合并'] = False

    return result

四、卡方分箱的优缺点

卡方分箱的优点：

1、卡方分箱可将连续变量离散化，消除线性关系对模型的影响。

2、卡方分箱是一种无监督学习方法，不需要事先了解目标变量的分布。

3、卡方分箱能够将数据降维，降低模型计算复杂度。

卡方分箱的缺点：

1、卡方分箱生成的区间数目较少，可能对于数据的分布不够精细。

2、卡方分箱会丢失变量之间的线性关系，有些情况下线性关系对预测是有帮助的。

3、卡方分箱不擅长处理极端值和缺失值，可能需要特殊处理。

五、卡方分箱的应用场景

卡方分箱可以应用于任何需要将连续变量离散化的场景，尤其适用于以下几种情况：

1、前处理：在建立模型之前，需要对特征进行处理，将连续变量离散化。

2、解决非线性关系：在特征和目标变量之间存在非线性关系时，可以使用卡方分箱解决。

3、计算信息增益：在进行决策树等模型中，需要计算各个特征的信息增益，卡方分箱可以将连续变量离散化，便于计算信息增益。

六、总结

卡方分箱是一种将连续变量离散化的方法，它通过计算变量的卡方统计量来确定最优划分点，将变量划分为多个区间进行分析。卡方分箱可以应用于任何需要将连续变量离散化的场景，并且适用于解决非线性关系、计算信息增益等问题。

原创文章，作者：AXWQB，如若转载，请注明出处：https://www.506064.com/n/368528.html