在機器學習領域,數據集是非常重要的。它們是用來訓練和測試模型的基礎。從簡單的線性回歸到複雜的深度神經網絡,每個機器學習算法都需要數據集。 在Python中,scikit-learn(sklearn) 是最受歡迎的機器學習庫之一,它內置了許多常用的數據集。
一、Iris數據集
Iris數據集是基本的多變量數據集之一,也是分類問題中最常用的數據集之一。
from sklearn.datasets import load_iris
iris_dataset = load_iris()
print("Keys of iris_dataset: \n", iris_dataset.keys())
print(iris_dataset['DESCR'])
輸出結果:
Keys of iris_dataset:
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])
iris_dataset['DESCR'])
以上代碼展示了如何通過加載iris數據集來引入iris數據。在輸出結果中,可以看到數據集的鍵,譬如包含樣本數據的『data』,包含標籤的『target_names』,以及數據集的描述信息『DESCR』等等。
二、Digits數據集
Digits數據集包含了8×8像素的手寫數字圖像。目標是根據給定的圖像將手寫數字數據分為10個不同的類。
from sklearn.datasets import load_digits
digits_data = load_digits()
print("Keys of digits_data: \n", digits_data.keys())
print(digits_data['DESCR'])
輸出結果:
Keys of digits_data:
dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])
.. _digits_dataset:
...
以上代碼展示了如何通過加載digits數據集來引入digits數據。在輸出結果中,可以看到數據集的鍵和數據集的描述信息『DESCR』等等。
三、Titanic數據集
Titanic數據集是來自於Kaggle的常用的數據集之一。它包含了1912年泰坦尼克號船員和乘客的詳細信息,包括船上乘客的姓名、性別、年齡、票價和旅行艙位等數據。
import pandas as pd
titanic_data = pd.read_csv('titanic.csv')
print("Keys of titanic_data: \n", titanic_data.keys())
titanic_data.head()
輸出結果:
Keys of titanic_data:
Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
dtype='object')
PassengerId Survived Pclass ... Ticket Fare Cabin
0 1 0 3 ... A/5 21171 7.2500 NaN
1 2 1 1 ... PC 17599 71.2833 C85
2 3 1 3 ... STON/O2. 3101282 7.9250 NaN
3 4 1 1 ... 113803 53.1000 C123
4 5 0 3 ... 373450 8.0500 NaN
[5 rows x 12 columns]
以上代碼展示了如何通過pandas庫來讀取titanic數據,並打印出前5行的數據。此外,也可以看到所有列的名稱。
四、Breast Cancer數據集
Breast Cancer數據集包含了良性和惡性乳腺腫瘤的特徵。這些特性已被轉換為10個實值特徵。此數據集是一個二分類的數據集,其中良性樣本記作0,惡性樣本記作1。
from sklearn.datasets import load_breast_cancer
cancer_data = load_breast_cancer()
print("Keys of cancer_data: \n", cancer_data.keys())
print(cancer_data['DESCR'])
輸出結果:
Keys of cancer_data:
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])
Breast Cancer Wisconsin (Diagnostic) Database
Notes
-----
Data Set Characteristics:...
以上代碼展示了如何通過加載breast cancer數據集來引入相關數據。在輸出結果中,可以看到數據集的鍵和數據集的描述信息『DESCR』等等。
總結
通過以上四個數據集的介紹,可以了解到在Python中,利用sklearn等庫可以輕鬆地加載數據集,並進行相應的數據處理和建模等工作。對於機器學習工作者而言,在使用算法進行建模之前,需要確保自己使用的數據集是否合理,每個數據集都需要充分理解其含義,才可以在使用時進行了解和解釋。
原創文章,作者:FRGN,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/143726.html