一、什么是卡方分箱
卡方分箱(Chi-Square Binning),又称卡方分割,是一种将连续变量离散化的方法。它通过计算变量的卡方统计量来确定最优划分点,将变量划分为多个区间进行分析。
换句话说,卡方分箱是将连续变量(如年龄、收入等)按照分割点分成不同区间(如年龄层、收入层等)的方法,使各个区间的变量分布差异最大化,从而提升变量的预测能力。
二、卡方分箱的步骤
卡方分箱的步骤如下:
1、将连续变量按照分割方式划分为k个区间(或分段)。
2、计算每个区间内的数据个数,以及每个区间内目标变量的个数。
3、计算每个区间内目标变量的期望值,期望值为该区间内目标变量的总数除以总样本数。
4、计算卡方值,卡方值用于衡量观测值与期望值的偏离程度,卡方值越大,偏离程度越大。
5、计算相邻区间的卡方值,以及相邻区间合并后的总卡方值。
6、将相邻的卡方值最小的区间进行合并,得到新的k-1个区间。
7、重复步骤2至步骤6,直到满足某个终止条件(如卡方值小于某个阈值、区间数达到预设值等)。
8、根据分割点将连续变量离散化为k-1个区间。
三、代码示例
import numpy as np
import pandas as pd
from scipy.stats import chi2_contingency
def chi_merge(df, col, target_col, bin_num=5, confidence_level=3.84):
"""
进行卡方分箱的函数
:param df: 数据集
:param col: 需要分箱的列名
:param target_col: 目标列名
:param bin_num: 分箱数目,默认为5
:param confidence_level: 置信度水平,默认为0.95
:return: 分箱结果,包括区间、实际样本数、目标样本数、期望样本数、卡方值、p值、是否需要合并
"""
bins = pd.qcut(df[col], q=bin_num, duplicates='drop')
summary = df.groupby(bins).agg({
col: ['min', 'max', 'count'],
target_col: ['sum', 'mean']
})
summary.columns = ['_'.join(col).strip() for col in summary.columns.values]
intervals = [(summary[col]['min'], summary[col]['max'])
for col in summary.columns.values if col.endswith('count')]
while True:
p_values = []
for i in range(len(intervals) - 1):
obs = np.array([[summary.loc[intervals[i], target_col_sum],
summary.loc[intervals[i], col_count] - summary.loc[intervals[i], target_col_sum]],
[summary.loc[intervals[i + 1], target_col_sum],
summary.loc[intervals[i + 1], col_count] - summary.loc[intervals[i + 1], target_col_sum]]])
_, p_value, _, _ = chi2_contingency(obs, correction=False)
p_values.append(p_value)
if np.min(p_values) > confidence_level:
break
index = p_values.index(np.min(p_values))
intervals[index] = (intervals[index][0], intervals[index + 1][1])
intervals.pop(index + 1)
result = pd.DataFrame({
'区间': intervals,
'实际样本数': [summary.loc[intv, col_count] for intv in intervals],
'目标样本数': [summary.loc[intv, target_col_sum] for intv in intervals]
})
n = df[target_col].sum()
b = len(intervals) - 1
k = 2
alpha = 1 - confidence_level
chi_value = chi2.isf(alpha, df=k-1)
while True:
exp_values = np.zeros(b)
for i in range(b):
exp_values[i] = (summary.loc[intervals[i], col_count] +
summary.loc[intervals[i+1], col_count]) * result['目标样本数'].sum() / n
obs_values = result['目标样本数'].values
chi_square = ((obs_values - exp_values)**2 / exp_values).sum()
if chi_square < chi_value:
break
min_index = np.argmin(exp_values)
intervals = sorted(intervals)
intervals[min_index] = (intervals[min_index][0], intervals[min_index+1][1])
intervals.pop(min_index+1)
result['需要合并'][min_index] = True
b -= 1
result['期望样本数'] = exp_values
result['卡方值'] = (obs_values - exp_values)**2 / exp_values
result['p值'] = [chi2.sf(chi, df=1) for chi in result['卡方值']]
result['需要合并'] = False
return result
四、卡方分箱的优缺点
卡方分箱的优点:
1、卡方分箱可将连续变量离散化,消除线性关系对模型的影响。
2、卡方分箱是一种无监督学习方法,不需要事先了解目标变量的分布。
3、卡方分箱能够将数据降维,降低模型计算复杂度。
卡方分箱的缺点:
1、卡方分箱生成的区间数目较少,可能对于数据的分布不够精细。
2、卡方分箱会丢失变量之间的线性关系,有些情况下线性关系对预测是有帮助的。
3、卡方分箱不擅长处理极端值和缺失值,可能需要特殊处理。
五、卡方分箱的应用场景
卡方分箱可以应用于任何需要将连续变量离散化的场景,尤其适用于以下几种情况:
1、前处理:在建立模型之前,需要对特征进行处理,将连续变量离散化。
2、解决非线性关系:在特征和目标变量之间存在非线性关系时,可以使用卡方分箱解决。
3、计算信息增益:在进行决策树等模型中,需要计算各个特征的信息增益,卡方分箱可以将连续变量离散化,便于计算信息增益。
六、总结
卡方分箱是一种将连续变量离散化的方法,它通过计算变量的卡方统计量来确定最优划分点,将变量划分为多个区间进行分析。卡方分箱可以应用于任何需要将连续变量离散化的场景,并且适用于解决非线性关系、计算信息增益等问题。
原创文章,作者:AXWQB,如若转载,请注明出处:https://www.506064.com/n/368528.html
微信扫一扫
支付宝扫一扫