Python機器學習必備:sklearn數據集大全

在機器學習領域,數據集是非常重要的。它們是用來訓練和測試模型的基礎。從簡單的線性回歸到複雜的深度神經網絡,每個機器學習算法都需要數據集。 在Python中,scikit-learn(sklearn) 是最受歡迎的機器學習庫之一,它內置了許多常用的數據集。

一、Iris數據集

Iris數據集是基本的多變量數據集之一,也是分類問題中最常用的數據集之一。


from sklearn.datasets import load_iris 

iris_dataset = load_iris()

print("Keys of iris_dataset: \n", iris_dataset.keys())
print(iris_dataset['DESCR'])

輸出結果:


Keys of iris_dataset: 
 dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])
iris_dataset['DESCR'])

以上代碼展示了如何通過加載iris數據集來引入iris數據。在輸出結果中,可以看到數據集的鍵,譬如包含樣本數據的‘data’,包含標籤的‘target_names’,以及數據集的描述信息‘DESCR’等等。

二、Digits數據集

Digits數據集包含了8×8像素的手寫數字圖像。目標是根據給定的圖像將手寫數字數據分為10個不同的類。


from sklearn.datasets import load_digits

digits_data = load_digits()

print("Keys of digits_data: \n", digits_data.keys())
print(digits_data['DESCR'])

輸出結果:


Keys of digits_data: 
 dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])
.. _digits_dataset:
...

以上代碼展示了如何通過加載digits數據集來引入digits數據。在輸出結果中,可以看到數據集的鍵和數據集的描述信息‘DESCR’等等。

三、Titanic數據集

Titanic數據集是來自於Kaggle的常用的數據集之一。它包含了1912年泰坦尼克號船員和乘客的詳細信息,包括船上乘客的姓名、性別、年齡、票價和旅行艙位等數據。


import pandas as pd

titanic_data = pd.read_csv('titanic.csv')

print("Keys of titanic_data: \n", titanic_data.keys())
titanic_data.head()

輸出結果:


Keys of titanic_data: 
 Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')
   PassengerId  Survived  Pclass  ...            Ticket     Fare Cabin
0            1         0       3  ...         A/5 21171   7.2500   NaN
1            2         1       1  ...          PC 17599  71.2833   C85
2            3         1       3  ...  STON/O2. 3101282   7.9250   NaN
3            4         1       1  ...            113803  53.1000  C123
4            5         0       3  ...            373450   8.0500   NaN

[5 rows x 12 columns]

以上代碼展示了如何通過pandas庫來讀取titanic數據,並打印出前5行的數據。此外,也可以看到所有列的名稱。

四、Breast Cancer數據集

Breast Cancer數據集包含了良性和惡性乳腺腫瘤的特徵。這些特性已被轉換為10個實值特徵。此數據集是一個二分類的數據集,其中良性樣本記作0,惡性樣本記作1。


from sklearn.datasets import load_breast_cancer

cancer_data = load_breast_cancer()

print("Keys of cancer_data: \n", cancer_data.keys())
print(cancer_data['DESCR'])

輸出結果:


Keys of cancer_data: 
 dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])
Breast Cancer Wisconsin (Diagnostic) Database

Notes
-----
Data Set Characteristics:...

以上代碼展示了如何通過加載breast cancer數據集來引入相關數據。在輸出結果中,可以看到數據集的鍵和數據集的描述信息‘DESCR’等等。

總結

通過以上四個數據集的介紹,可以了解到在Python中,利用sklearn等庫可以輕鬆地加載數據集,並進行相應的數據處理和建模等工作。對於機器學習工作者而言,在使用算法進行建模之前,需要確保自己使用的數據集是否合理,每個數據集都需要充分理解其含義,才可以在使用時進行了解和解釋。

原創文章,作者:FRGN,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/143726.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
FRGN的頭像FRGN
上一篇 2024-10-24 15:25
下一篇 2024-10-24 15:25

相關推薦

  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • Python清華鏡像下載

    Python清華鏡像是一個高質量的Python開發資源鏡像站,提供了Python及其相關的開發工具、框架和文檔的下載服務。本文將從以下幾個方面對Python清華鏡像下載進行詳細的闡…

    編程 2025-04-29
  • 蝴蝶優化算法Python版

    蝴蝶優化算法是一種基於仿生學的優化算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化算法Python版…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智能、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29

發表回復

登錄後才能評論