關於用python作信用卡欺詐預測的信息

本文目錄一覽：

1、編寫python程序，判斷所輸入的信用卡號是否合法？
2、用Python編寫一個程序，如何判斷用戶輸入的八位信用卡號碼是否合法?
3、如何用Python在10分鐘內建立一個預測模型
4、用Python編寫一個程序，判斷用戶輸入的八位信用卡號碼是否合法?
5、使用python+sklearn的決策樹方法預測是否有信用風險
6、Python能做什麼，能夠開發什麼項目？

編寫python程序，判斷所輸入的信用卡號是否合法？

#!/usr/bin/env python# coding: utf-8#def payment(balance, pay, annualInterestRate=.2): monthlyInterestRate = annualInterestRate / 12.0 def _trysolution(monthlypayment): unpaidbalance = balance for mn in xrange(1, 13): unpaidbalance -= monthlypayment unpaidbalance += monthlyInterestRate * unpaidbalance return unpaidbalance python -u “qa.py”#~ 310#~ 440#~ 360#~ 450#~ Exit code: 0 Time: 0.067

用Python編寫一個程序，如何判斷用戶輸入的八位信用卡號碼是否合法?

信用卡號是否合法的判斷規則為：

對給定的8位信用卡號碼，如43589795，從最右邊數字開始，隔一位取一個數相加，如5+7+8+3=23。

將卡號中未出現在第一步中的每個數字乘2，然後將相乘的結果的每位數字相加。

例如，對上述例子，未出現在第一步中的數字乘2後分別為（從右至左）18、18、10、8，則將所有數字相加為1+8+1+8+1+0+8=27。 c) 將上述兩步得到的數字相加，如果得數個位為0，則輸入的信用卡號是有效的。

Python由荷蘭數學和計算機科學研究學會的Guido van Rossum於1990 年代初設計，作為一門叫做ABC語言的替代品。

Python提供了高效的高級數據結構，還能簡單有效地面向對象編程。Python語法和動態類型，以及解釋型語言的本質，使它成為多數平台上寫腳本和快速開發應用的編程語言，隨着版本的不斷更新和語言新功能的添加，逐漸被用於獨立的、大型項目的開發。

發展歷史：

Python解釋器易於擴展，可以使用C或C++（或者其他可以通過C調用的語言）擴展新的功能和數據類型。

Python 也可用於可定製化軟件中的擴展程序語言。Python豐富的標準庫，提供了適用於各個主要系統平台的源碼或機器碼。

2021年10月，語言流行指數的編譯器Tiobe將Python加冕為最受歡迎的編程語言，20年來首次將其置於Java、C和JavaScript之上。

如何用Python在10分鐘內建立一個預測模型

預測模型的分解過程

我總是集中於投入有質量的時間在建模的初始階段，比如，假設生成、頭腦風暴、討論或理解可能的結果範圍。所有這些活動都有助於我解決問題，並最終讓我設計出更強大的商業解決方案。為什麼你要在前面花費這段時間，這有充分的理由：

你有足夠的時間投入並且你是無經驗的（這是有影響的）

你不帶有其它數據觀點或想法的偏見（我總是建議，在深入研究數據之前做假設生成）

在後面的階段，你會急於完成該項目而沒有能力投入有質量的時間了。

這個階段需要投入高質量時間，因此我沒有提及時間表，不過我建議你把它作為標準的做法。這有助於你建立建立更好地預測模型，在後面的階段的只需較少的迭代工作。讓我們來看看建立第一個模型的剩餘階段的時間表：

數據描述性分析——50%的時間

數據預處理（缺失值和異常值修復）——40%的時間

數據建模——4%的時間

性能預測——6%的時間

讓我們一步一步完成每個過程（每一步投入預測的時間）：

階段1：描述性分析/數據探索

在我剛開始成為數據科學家的時候，數據探索佔據了我大量的時間。不過，隨着時間的推移，我已經把大量的數據操作自動化了。由於數據準備佔據建立第一個模型工作量的50%，自動化的好處是顯而易見的。

這是我們的第一個基準模型，我們去掉任何特徵設計。因此，描述分析所需的時間僅限於了解缺失值和直接可見的大的特徵。在我的方法體系中，你將需要2分鐘來完成這一步（假設，100000個觀測數據集）。

我的第一個模型執行的操作：

確定ID，輸入特徵和目標特徵

確定分類和數值特徵

識別缺失值所在列

階段2：數據預處理（缺失值處理）

有許多方法可以解決這個問題。對於我們的第一個模型，我們將專註於智能和快速技術來建立第一個有效模型。

為缺失值創建假標誌：有用，有時缺失值本身就攜帶了大量的信息。

用均值、中位數或其它簡單方法填補缺失值：均值和中位數填補都表現良好，大多數人喜歡用均值填補但是在有偏分佈的情況下我建議使用中位數。其它智能的方法與均值和中位數填補類似，使用其它相關特徵填補或建立模型。比如，在Titanic生存挑戰中，你可以使用乘客名字的稱呼，比如：「Mr.」, 「Miss.」,」Mrs.」,」Master」，來填補年齡的缺失值，這對模型性能有很好的影響。

填補缺失的分類變量：創建一個新的等級來填補分類變量，讓所有的缺失值編碼為一個單一值比如，「New_Cat」，或者，你可以看看頻率組合，使用高頻率的分類變量來填補缺失值。

由於數據處理方法如此簡單，你可以只需要3到4分鐘來處理數據。

階段3：數據建模

根據不同的業務問題，我推薦使用GBM或RandomForest技術的任意一種。這兩個技術可以極其有效地創建基準解決方案。我已經看到數據科學家通常把這兩個方法作為他們的第一個模型同時也作為最後一個模型。這最多用去4到5分鐘。

階段4：性能預測

有各種各樣的方法可以驗證你的模型性能，我建議你將訓練數據集劃分為訓練集和驗證集（理想的比例是70：30）並且在70%的訓練數據集上建模。現在，使用30%的驗證數據集進行交叉驗證並使用評價指標進行性能評估。最後需要1到2分鐘執行和記錄結果。

本文的目的不是贏得比賽，而是建立我們自己的基準。讓我們用python代碼來執行上面的步驟，建立你的第一個有較高影響的模型。

讓我們開始付諸行動

首先我假設你已經做了所有的假設生成並且你擅長使用python的基本數據科學操作。我用一個數據科學挑戰的例子來說明。讓我們看一下結構：

步驟1：導入所需的庫，讀取測試和訓練數據集。

#導入pandas、numpy包，導入LabelEncoder、random、RandomForestClassifier、GradientBoostingClassifier函數

import pandas as pd

import numpy as np

fromsklearn.preprocessing import LabelEncoder

import random

fromsklearn.ensemble import RandomForestClassifier

from sklearn.ensembleimport GradientBoostingClassifier

#讀取訓練、測試數據集

train=pd.read_csv(‘C:/Users/AnalyticsVidhya/Desktop/challenge/Train.csv’)

test=pd.read_csv(‘C:/Users/AnalyticsVidhya/Desktop/challenge/Test.csv’)

#創建訓練、測試數據集標誌

train=’Train’

test=’Test’

fullData =pd.concat(,axis=0) #聯合訓練、測試數據集

步驟2：該框架的第二步並不需要用到python，繼續下一步。

步驟3：查看數據集的列名或概要

fullData.columns # 顯示所有的列名稱

fullData.head(10) #顯示數據框的前10條記錄

fullData.describe() #你可以使用describe()函數查看數值域的概要

步驟4：確定a)ID變量 b)目標變量 c)分類變量 d)數值變量 e)其他變量。

ID_col =

target_col =

cat_cols =

num_cols= list(set(list(fullData.columns))-set(cat_cols)-set(ID_col)-set(target_col)-set(data_col))

other_col= #為訓練、測試數據集設置標識符

步驟5：識別缺失值變量並創建標誌

fullData.isnull().any()#返回True或False，True意味着有缺失值而False相反

num_cat_cols = num_cols+cat_cols # 組合數值變量和分類變量

#為有缺失值的變量創建一個新的變量

# 對缺失值標誌為1，否則為0

for var in num_cat_cols:

if fullData.isnull().any()=True:

fullData=fullData.isnull()*1

步驟6：填補缺失值

#用均值填補數值缺失值

fullData = fullData.fillna(fullData.mean(),inplace=True)

#用-9999填補分類變量缺失值

fullData = fullData.fillna(value = -9999)

步驟7：創建分類變量的標籤編碼器，將數據集分割成訓練和測試集，進一步，將訓練數據集分割成訓練集和測試集。

#創建分類特徵的標籤編碼器

for var in cat_cols:

number = LabelEncoder()

fullData = number.fit_transform(fullData.astype(‘str’))

#目標變量也是分類變量，所以也用標籤編碼器轉換

fullData = number.fit_transform(fullData.astype(‘str’))

train=fullData=’Train’]

test=fullData=’Test’]

train = np.random.uniform(0, 1, len(train)) = .75

Train, Validate = train=True], train=False]

步驟8：將填補和虛假（缺失值標誌）變量傳遞到模型中，我使用隨機森林來預測類。

features=list(set(list(fullData.columns))-set(ID_col)-set(target_col)-set(other_col))

x_train = Train.values

y_train = Train.values

x_validate = Validate.values

y_validate = Validate.values

x_test=test.values

random.seed(100)

rf = RandomForestClassifier(n_estimators=1000)

rf.fit(x_train, y_train)

步驟9：檢查性能做出預測

status = rf.predict_proba(x_validate)

fpr, tpr, _ = roc_curve(y_validate, status)

roc_auc = auc(fpr, tpr)

print roc_auc

final_status = rf.predict_proba(x_test)

test=final_status

test.to_csv(‘C:/Users/Analytics Vidhya/Desktop/model_output.csv’,columns=)

現在可以提交了！

用Python編寫一個程序，判斷用戶輸入的八位信用卡號碼是否合法?

如下：

def verify(numbers: str):

“””

驗證8位信用卡號的正確性

:param numbers: 8位數字組成的字符串

:return:

“””

assert len(numbers) == 8, “請輸入的8位字符串”

numbers_list = [int(x) for x in numbers] # [1, 2, 3, 4, 5, 6, 7, 8]

# 從最右邊數字開始，隔一位取一個數相加

sum1 = sum(numbers_list[::-2])

# 每一位乘2

time2 = [str(x * 2) for x in numbers_list[-2::-2]]

# 每一位相加

time2_str = “”.join(time2) # “141062”

sum2 = 0

for i in time2_str:

sum2 += int(i)

# 將上述兩步得到的值相加

sum3 = sum1 + sum2

# 如果結果個位數字為0，則輸入的信用卡號是有效的

if sum3 % 10 == 0:

return True

else:

return False

verify(“12345678”)

介紹

Python解釋器易於擴展，可以使用C或C++（或者其他可以通過C調用的語言）擴展新的功能和數據類型。Python 也可用於可定製化軟件中的擴展程序語言。Python豐富的標準庫，提供了適用於各個主要系統平台的源碼或機器碼。

2021年10月，語言流行指數的編譯器Tiobe將Python加冕為最受歡迎的編程語言，20年來首次將其置於Java、C和JavaScript之上。

使用python+sklearn的決策樹方法預測是否有信用風險

import numpy as np11

import pandas as pd11

names=(“Balance,Duration,History,Purpose,Credit amount,Savings,Employment,instPercent,sexMarried,Guarantors,Residence duration,Assets,Age,concCredit,Apartment,Credits,Occupation,Dependents,hasPhone,Foreign,lable”).split(‘,’)11

data=pd.read_csv(“Desktop/sunshengyun/data/german/german.data”,sep=’\s+’,names=names)11

data.head()11

Balance

Duration

History

Purpose

Credit amount

Savings

Employment

instPercent

sexMarried

Guarantors

…

Assets

Age

concCredit

Apartment

Credits

Occupation

Dependents

hasPhone

Foreign

lable

A11 6 A34 A43 1169 A65 A75 4 A93 A101 … A121 67 A143 A152 2 A173 1 A192 A201 1

A12 48 A32 A43 5951 A61 A73 2 A92 A101 … A121 22 A143 A152 1 A173 1 A191 A201 2

A14 12 A34 A46 2096 A61 A74 2 A93 A101 … A121 49 A143 A152 1 A172 2 A191 A201 1

A11 42 A32 A42 7882 A61 A74 2 A93 A103 … A122 45 A143 A153 1 A173 2 A191 A201 1

A11 24 A33 A40 4870 A61 A73 3 A93 A101 … A124 53 A143 A153 2 A173 2 A191 A201 2

5 rows × 21 columns

data.Balance.unique()11

array([『A11』, 『A12』, 『A14』, 『A13』], dtype=object)data.count()11

Balance 1000 Duration 1000 History 1000 Purpose 1000 Credit amount 1000 Savings 1000 Employment 1000 instPercent 1000 sexMarried 1000 Guarantors 1000 Residence duration 1000 Assets 1000 Age 1000 concCredit 1000 Apartment 1000 Credits 1000 Occupation 1000 Dependents 1000 hasPhone 1000 Foreign 1000 lable 1000 dtype: int64#部分變量描述性統計分析

data.describe()1212

Duration

Credit amount

instPercent

Residence duration

Age

Credits

Dependents

lable

count

1000.000000 1000.000000 1000.000000 1000.000000 1000.000000 1000.000000 1000.000000 1000.000000

mean

20.903000 3271.258000 2.973000 2.845000 35.546000 1.407000 1.155000 1.300000

std

12.058814 2822.736876 1.118715 1.103718 11.375469 0.577654 0.362086 0.458487

min

4.000000 250.000000 1.000000 1.000000 19.000000 1.000000 1.000000 1.000000

25%

12.000000 1365.500000 2.000000 2.000000 27.000000 1.000000 1.000000 1.000000

50%

18.000000 2319.500000 3.000000 3.000000 33.000000 1.000000 1.000000 1.000000

75%

24.000000 3972.250000 4.000000 4.000000 42.000000 2.000000 1.000000 2.000000

max

72.000000 18424.000000 4.000000 4.000000 75.000000 4.000000 2.000000 2.000000

data.Duration.unique()11

array([ 6, 48, 12, 42, 24, 36, 30, 15, 9, 10, 7, 60, 18, 45, 11, 27, 8, 54, 20, 14, 33, 21, 16, 4, 47, 13, 22, 39, 28, 5, 26, 72, 40], dtype=int64)data.History.unique()11

array([『A34』, 『A32』, 『A33』, 『A30』, 『A31』], dtype=object)data.groupby(‘Balance’).size().order(ascending=False)11

c:\python27\lib\site-packages\ipykernel\__main__.py:1: FutureWarning: order is deprecated, use sort_values(…) if __name__ == 『__main__』: Balance A14 394 A11 274 A12 269 A13 63 dtype: int64data.groupby(‘Purpose’).size().order(ascending=False)11

c:\python27\lib\site-packages\ipykernel\__main__.py:1: FutureWarning: order is deprecated, use sort_values(…) if __name__ == 『__main__』: Purpose A43 280 A40 234 A42 181 A41 103 A49 97 A46 50 A45 22 A44 12 A410 12 A48 9 dtype: int64data.groupby(‘Apartment’).size().order(ascending=False)11

c:\python27\lib\site-packages\ipykernel\__main__.py:1: FutureWarning: order is deprecated, use sort_values(…) if __name__ == 『__main__』: Apartment A152 713 A151 179 A153 108 dtype: int64import matplotlib.pyplot as plt

%matplotlib inline

data.plot(x=’lable’, y=’Age’, kind=’scatter’,

alpha=0.02, s=50);12341234

![png](output_13_0.png)data.hist(‘Age’, bins=15);11

![png](output_14_0.png)target=data.lable11

features_data=data.drop(‘lable’,axis=1)11

numeric_features = [c for c in features_data if features_data[c].dtype.kind in (‘i’, ‘f’)] # 提取數值類型為整數或浮點數的變量11

numeric_features11

[『Duration』, 『Credit amount』, 『instPercent』, 『Residence duration』, 『Age』, 『Credits』, 『Dependents』]numeric_data = features_data[numeric_features]11

numeric_data.head()11

Duration

Credit amount

instPercent

Residence duration

Age

Credits

Dependents

6 1169 4 4 67 2 1

48 5951 2 2 22 1 1

12 2096 2 3 49 1 2

42 7882 2 4 45 1 2

24 4870 3 4 53 2 2

categorical_data = features_data.drop(numeric_features, axis=1)11

categorical_data.head()11

Balance

History

Purpose

Savings

Employment

sexMarried

Guarantors

Assets

concCredit

Apartment

Occupation

hasPhone

Foreign

A11 A34 A43 A65 A75 A93 A101 A121 A143 A152 A173 A192 A201

A12 A32 A43 A61 A73 A92 A101 A121 A143 A152 A173 A191 A201

A14 A34 A46 A61 A74 A93 A101 A121 A143 A152 A172 A191 A201

A11 A32 A42 A61 A74 A93 A103 A122 A143 A153 A173 A191 A201

A11 A33 A40 A61 A73 A93 A101 A124 A143 A153 A173 A191 A201

categorical_data_encoded = categorical_data.apply(lambda x: pd.factorize(x)[0]) # pd.factorize即可將分類變量轉換為數值表示

# apply運算將轉換函數應用到每一個變量維度

categorical_data_encoded.head(5)123123

Balance

History

Purpose

Savings

Employment

sexMarried

Guarantors

Assets

concCredit

Apartment

Occupation

hasPhone

Foreign

0 0 0 0 0 0 0 0 0 0 0 0 0

1 1 0 1 1 1 0 0 0 0 0 1 0

2 0 1 1 2 0 0 0 0 0 1 1 0

0 1 2 1 2 0 1 1 0 1 0 1 0

0 2 3 1 1 0 0 2 0 1 0 1 0

features = pd.concat([numeric_data, categorical_data_encoded], axis=1)#進行數據的合併

features.head()

# 此處也可以選用one-hot編碼來表示分類變量，相應的程序如下：

# features = pd.get_dummies(features_data)

# features.head()1234512345

Duration

Credit amount

instPercent

Residence duration

Age

Credits

Dependents

Balance

History

Purpose

Savings

Employment

sexMarried

Guarantors

Assets

concCredit

Apartment

Occupation

hasPhone

Foreign

6 1169 4 4 67 2 1 0 0 0 0 0 0 0 0 0 0 0 0 0

48 5951 2 2 22 1 1 1 1 0 1 1 1 0 0 0 0 0 1 0

12 2096 2 3 49 1 2 2 0 1 1 2 0 0 0 0 0 1 1 0

42 7882 2 4 45 1 2 0 1 2 1 2 0 1 1 0 1 0 1 0

24 4870 3 4 53 2 2 0 2 3 1 1 0 0 2 0 1 0 1 0

X = features.values.astype(np.float32) # 轉換數據類型

y = (target.values == 1).astype(np.int32) # 1:good,2:bad1212

from sklearn.cross_validation import train_test_split # sklearn庫中train_test_split函數可實現該劃分

X_train, X_test, y_train, y_test = train_test_split(

X, y, test_size=0.2, random_state=0) # 參數test_size設置訓練集佔比

1234512345

from sklearn.tree import DecisionTreeClassifier

from sklearn.cross_validation import cross_val_score

clf = DecisionTreeClassifier(max_depth=8) # 參數max_depth設置樹最大深度

# 交叉驗證，評價分類器性能，此處選擇的評分標準是ROC曲線下的AUC值，對應AUC更大的分類器效果更好

scores = cross_val_score(clf, X_train, y_train, cv=3, scoring=’roc_auc’)

print(“ROC AUC Decision Tree: {:.4f} +/-{:.4f}”.format(

np.mean(scores), np.std(scores)))123456789123456789

ROC AUC Decision Tree: 0.6866 +/-0.0105

#利用learning curve，以樣本數為橫坐標，訓練和交叉驗證集上的評分為縱坐標，對不同深度的決策樹進行對比（判斷是否存在過擬合或欠擬合）

from sklearn.learning_curve import learning_curve

def plot_learning_curve(estimator, X, y, ylim=(0, 1.1), cv=3,

n_jobs=1, train_sizes=np.linspace(.1, 1.0, 5),

scoring=None):

plt.title(“Learning curves for %s” % type(estimator).__name__)

plt.ylim(*ylim); plt.grid()

plt.xlabel(“Training examples”)

plt.ylabel(“Score”)

train_sizes, train_scores, validation_scores = learning_curve(

estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_sizes,

scoring=scoring)

train_scores_mean = np.mean(train_scores, axis=1)

validation_scores_mean = np.mean(validation_scores, axis=1)

plt.plot(train_sizes, train_scores_mean, ‘o-‘, color=”r”,

label=”Training score”)

plt.plot(train_sizes, validation_scores_mean, ‘o-‘, color=”g”,

label=”Cross-validation score”)

plt.legend(loc=”best”)

print(“Best validation score: {:.4f}”.format(validation_scores_mean[-1]))12345678910111213141516171819202122231234567891011121314151617181920212223

clf = DecisionTreeClassifier(max_depth=None)

plot_learning_curve(clf, X_train, y_train, scoring=’roc_auc’)

# 可以注意到訓練數據和交叉驗證數據的得分有很大的差距，意味着可能過度擬合訓練數據了123123

Best validation score: 0.6310

clf = DecisionTreeClassifier(max_depth=10)

plot_learning_curve(clf, X_train, y_train, scoring=’roc_auc’)1212

Best validation score: 0.6565

clf = DecisionTreeClassifier(max_depth=8)

plot_learning_curve(clf, X_train, y_train, scoring=’roc_auc’)1212

Best validation score: 0.6762

clf = DecisionTreeClassifier(max_depth=5)

plot_learning_curve(clf, X_train, y_train, scoring=’roc_auc’)1212

Best validation score: 0.7219

clf = DecisionTreeClassifier(max_depth=4)

plot_learning_curve(clf, X_train, y_train, scoring=’roc_auc’)1212

Best validation score: 0.7226

Python能做什麼，能夠開發什麼項目？

Python是一種計算機程序設計語言。是一種面向對象的動態類型語言，最初被設計用於編寫自動化腳本(shell)，隨着版本的不斷更新和語言新功能的添加，越來越多被用於獨立的、大型項目的開發。

Python是一種解釋型腳本語言，可以應用於Web 和 Internet開發、科學計算和統計、人工智能、教育、桌面界面開發、軟件開發、後端開發這些領域。

Python的應用

1、系統編程

提供API（Application Programming Interface應用程序編程接口），能方便進行系統維護和管理，Linux下標誌性語言之一，是很多系統管理員理想的編程工具。

2、圖形處理

有PIL、Tkinter等圖形庫支持，能方便進行圖形處理。

3、數學處理

NumPy擴展提供大量與許多標準數學庫的接口。

4、文本處理

python提供的re模塊能支持正則表達式，還提供SGML，XML分析模塊，許多程序員利用python進行XML程序的開發。

5、數據庫編程

程序員可通過遵循Python DB-API（數據庫應用程序編程接口）規範的模塊與Microsoft SQL Server，Oracle，Sybase，DB2，MySQL、SQLite等數據庫通信。python自帶有一個Gadfly模塊，提供了一個完整的SQL環境。

6、網絡編程

提供豐富的模塊支持sockets編程，能方便快速地開發分佈式應用程序。很多大規模軟件開發計劃例如Zope，Mnet 及BitTorrent. Google都在廣泛地使用它。

7、Web編程

應用的開發語言，支持最新的XML技術。

8、多媒體應用

Python的PyOpenGL模塊封裝了「OpenGL應用程序編程接口」，能進行二維和三維圖像處理。PyGame模塊可用於編寫遊戲軟件。

9、pymo引擎

PYMO全稱為python memories off，是一款運行於Symbian S60V3,Symbian3,S60V5, Symbian3, Android系統上的AVG遊戲引擎。因其基於python2.0平台開發，並且適用於創建秋之回憶（memories off）風格的AVG遊戲，故命名為PYMO。

10、黑客編程

python有一個hack的庫,內置了你熟悉的或不熟悉的函數，但是缺少成就感。

參考資料來源：百度百科—Python

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/280595.html

關於用python作信用卡欺詐預測的信息

本文目錄一覽：

編寫python程序，判斷所輸入的信用卡號是否合法？

用Python編寫一個程序，如何判斷用戶輸入的八位信用卡號碼是否合法?

如何用Python在10分鐘內建立一個預測模型

用Python編寫一個程序，判斷用戶輸入的八位信用卡號碼是否合法?

使用python+sklearn的決策樹方法預測是否有信用風險

Python能做什麼，能夠開發什麼項目？

相關推薦

發表回復