一、什么是卡方分箱
卡方分箱(Chi-Square Binning),又称卡方分割,是一种将连续变量离散化的方法。它通过计算变量的卡方统计量来确定最优划分点,将变量划分为多个区间进行分析。
换句话说,卡方分箱是将连续变量(如年龄、收入等)按照分割点分成不同区间(如年龄层、收入层等)的方法,使各个区间的变量分布差异最大化,从而提升变量的预测能力。
二、卡方分箱的步骤
卡方分箱的步骤如下:
1、将连续变量按照分割方式划分为k个区间(或分段)。
2、计算每个区间内的数据个数,以及每个区间内目标变量的个数。
3、计算每个区间内目标变量的期望值,期望值为该区间内目标变量的总数除以总样本数。
4、计算卡方值,卡方值用于衡量观测值与期望值的偏离程度,卡方值越大,偏离程度越大。
5、计算相邻区间的卡方值,以及相邻区间合并后的总卡方值。
6、将相邻的卡方值最小的区间进行合并,得到新的k-1个区间。
7、重复步骤2至步骤6,直到满足某个终止条件(如卡方值小于某个阈值、区间数达到预设值等)。
8、根据分割点将连续变量离散化为k-1个区间。
三、代码示例
import numpy as np import pandas as pd from scipy.stats import chi2_contingency def chi_merge(df, col, target_col, bin_num=5, confidence_level=3.84): """ 进行卡方分箱的函数 :param df: 数据集 :param col: 需要分箱的列名 :param target_col: 目标列名 :param bin_num: 分箱数目,默认为5 :param confidence_level: 置信度水平,默认为0.95 :return: 分箱结果,包括区间、实际样本数、目标样本数、期望样本数、卡方值、p值、是否需要合并 """ bins = pd.qcut(df[col], q=bin_num, duplicates='drop') summary = df.groupby(bins).agg({ col: ['min', 'max', 'count'], target_col: ['sum', 'mean'] }) summary.columns = ['_'.join(col).strip() for col in summary.columns.values] intervals = [(summary[col]['min'], summary[col]['max']) for col in summary.columns.values if col.endswith('count')] while True: p_values = [] for i in range(len(intervals) - 1): obs = np.array([[summary.loc[intervals[i], target_col_sum], summary.loc[intervals[i], col_count] - summary.loc[intervals[i], target_col_sum]], [summary.loc[intervals[i + 1], target_col_sum], summary.loc[intervals[i + 1], col_count] - summary.loc[intervals[i + 1], target_col_sum]]]) _, p_value, _, _ = chi2_contingency(obs, correction=False) p_values.append(p_value) if np.min(p_values) > confidence_level: break index = p_values.index(np.min(p_values)) intervals[index] = (intervals[index][0], intervals[index + 1][1]) intervals.pop(index + 1) result = pd.DataFrame({ '区间': intervals, '实际样本数': [summary.loc[intv, col_count] for intv in intervals], '目标样本数': [summary.loc[intv, target_col_sum] for intv in intervals] }) n = df[target_col].sum() b = len(intervals) - 1 k = 2 alpha = 1 - confidence_level chi_value = chi2.isf(alpha, df=k-1) while True: exp_values = np.zeros(b) for i in range(b): exp_values[i] = (summary.loc[intervals[i], col_count] + summary.loc[intervals[i+1], col_count]) * result['目标样本数'].sum() / n obs_values = result['目标样本数'].values chi_square = ((obs_values - exp_values)**2 / exp_values).sum() if chi_square < chi_value: break min_index = np.argmin(exp_values) intervals = sorted(intervals) intervals[min_index] = (intervals[min_index][0], intervals[min_index+1][1]) intervals.pop(min_index+1) result['需要合并'][min_index] = True b -= 1 result['期望样本数'] = exp_values result['卡方值'] = (obs_values - exp_values)**2 / exp_values result['p值'] = [chi2.sf(chi, df=1) for chi in result['卡方值']] result['需要合并'] = False return result
四、卡方分箱的优缺点
卡方分箱的优点:
1、卡方分箱可将连续变量离散化,消除线性关系对模型的影响。
2、卡方分箱是一种无监督学习方法,不需要事先了解目标变量的分布。
3、卡方分箱能够将数据降维,降低模型计算复杂度。
卡方分箱的缺点:
1、卡方分箱生成的区间数目较少,可能对于数据的分布不够精细。
2、卡方分箱会丢失变量之间的线性关系,有些情况下线性关系对预测是有帮助的。
3、卡方分箱不擅长处理极端值和缺失值,可能需要特殊处理。
五、卡方分箱的应用场景
卡方分箱可以应用于任何需要将连续变量离散化的场景,尤其适用于以下几种情况:
1、前处理:在建立模型之前,需要对特征进行处理,将连续变量离散化。
2、解决非线性关系:在特征和目标变量之间存在非线性关系时,可以使用卡方分箱解决。
3、计算信息增益:在进行决策树等模型中,需要计算各个特征的信息增益,卡方分箱可以将连续变量离散化,便于计算信息增益。
六、总结
卡方分箱是一种将连续变量离散化的方法,它通过计算变量的卡方统计量来确定最优划分点,将变量划分为多个区间进行分析。卡方分箱可以应用于任何需要将连续变量离散化的场景,并且适用于解决非线性关系、计算信息增益等问题。
原创文章,作者:AXWQB,如若转载,请注明出处:https://www.506064.com/n/368528.html