工具變量的選擇必須滿足的條件,變量選擇方法

就是選擇X

可能模型的入參有很多X,那麼如何選擇這些X?


WOE weight of evidence 證據權重。

選擇變量的方法--WOE和IV;順便引入odds的概念

這裡就順道說下odds ratio (OR值)的概念:odds 優勢比。

比如下雨的概率為0.25,不下雨的概率為0.75。0.25與0.75的比值可以約分為1比3。因此,我們可以說今天將會下雨的優勢比為1:3(或者今天不會下雨的概率比為3:1)

若是風控模型,病例組就是正樣本,對照組就是好樣本。

WOE=ln(BI/BT / GI/GT)*100%=ln(p1/p0)= ln(BI/GI / BT/GT)=ln(oddsi / oddsT)

p1和p0分別表示了違約樣本與正常樣本占各自總體的比例;

可以認為WOE衡量了自變量取Ai時的違約險算比(oddsratio)與總體違約險算比之間的某種差異。正因為如此,直觀地可以認為WOE蘊含了自變量取值對目標變量(違約概率)的某種影響,因此可以自然地將自變量重新編碼:當自變量取值Ai時,編碼為相應的WOEi。

選擇變量的方法--WOE和IV;順便引入odds的概念
選擇變量的方法--WOE和IV;順便引入odds的概念
選擇變量的方法--WOE和IV;順便引入odds的概念
選擇變量的方法--WOE和IV;順便引入odds的概念
選擇變量的方法--WOE和IV;順便引入odds的概念

IV information value 信息值。

IV=sum((p1-p0)*log(p1/p0)) 。

選擇變量的方法--WOE和IV;順便引入odds的概念
選擇變量的方法--WOE和IV;順便引入odds的概念

IV值可以用于衡量各變量對y的預測能力,用於篩選變量。

對離散型的變量,如 一線城市、二線城市;博士、碩士等學歷變量。woe可以觀察各個level間的跳轉對odds的提升是否是線性的。而IV值可以衡量變量整體的預測能力。

對連續變量而言,可以通過將連續變量進行分箱的合理,可能是等距分箱,可能是等頻分箱,一般選後者。此時WOE和IV擁有和 離散型變量同樣的意義。

原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/233247.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
投稿專員的頭像投稿專員
上一篇 2024-12-11 13:30
下一篇 2024-12-11 13:30

相關推薦

發表回復

登錄後才能評論