一、波士頓房價數據集
波士頓房價數據集是機器學習裡面的經典數據集,也是本地區房價預測任務中常用的數據集之一。其中包含506個樣本,並且每個樣本有13個特徵變數。
這些變數包括每個城鎮的住宅區劃位置、周圍環境變數和方便居民設置的指標。該數據集對預測決策具有挑戰性,因此迫使人們在開發機器學習模型時更深入地探究各種特徵變數之間的關係。
二、波士頓房價數據集來源
波士頓房價數據集最早出現在1978年,是由國家科學基金會資助的一項研究項目的成果之一。成果被記錄在 賓州大學 網站上。現在,該數據集可以通過多種方式進行訪問和獲取。
三、波士頓房價數據集 Matlab
Matlab是一款開發語言和環境,可以幫助用戶進行數據分析、可視化和模型構建等。波士頓房價數據集也可以使用Matlab進行訪問和處理。
load housing
whos
這裡我們使用load函數將數據集housing載入到工作區中,並使用whos函數查看數據集的存儲和大小情況。
四、波士頓房價數據集解讀
對波士頓房價數據集的解讀是機器學習模型構建的關鍵。我們需要理解每個特徵變數的含義,並根據實際場景進行分析和探究。以下是波士頓房價數據集中的13個特徵變數:
- CRIM:人均犯罪率
- ZN:佔地面積超過2.5萬平方英尺的住宅用地比例
- INDUS:每個城鎮中非零售業務的營業比例
- CHAS:Charles River虛擬變數(如果是河道邊界,則為1;否則為0)
- NOX:一氧化氮濃度(每千萬)
- RM:每個住宅的平均房間數
- AGE:1940年之前的自用住房比例
- DIS:波士頓就業中心的加權距離
- RAD:徑向高速公路可達性指數
- TAX:每10,000美元的全額財產稅率
- PTRATIO:每個城鎮的學生與教師比例
- B:1000(Bk – 0.63)^ 2其中Bk是每個城鎮中黑人的比例
- LSTAT:低收入人群的比例(%)
五、波士頓房價數據集從哪兒下載
波士頓房價數據集可以從多個公開數據集網站下載,包括UCI Machine Learning Repository、Kaggle、Sklearn等。該數據集也經常出現在機器學習的教材和論文中,並提供了相關的代碼和案例,供學習者進行參考。
六、波士頓房價數據下載
使用Python作為開發語言時,可以使用sklearn庫直接下載該數據集。
from sklearn.datasets import load_boston
boston = load_boston()
這裡我們使用load_boston函數將該數據集載入到變數boston中。
七、波士頓房價數據可視化分析
對於機器學習模型構建之前,我們通常會進行一些數據可視化的分析。這有助於我們對數據集的整體分布和特徵之間的關係進行更深入的理解。
以下是波士頓房價數據集的分布示意圖:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.DataFrame(boston.data, columns=boston.feature_names)
df['MEDV'] = boston.target
sns.set(rc={'figure.figsize':(11.7,8.27)})
sns.displot(df['MEDV'], norm_hist=True)
plt.show()
這裡我們使用了pandas、seaborn和matplotlib等庫,將數據集轉換成DataFrame,並繪製了MEDV的分布直方圖。
八、波士頓數據集
到目前為止,我們已經對波士頓房價數據集進行了許多方面的探究和分析,包括數據來源、解讀、下載以及可視化分析。這些分析都為機器學習模型的構建提供了寶貴的信息和洞察力。使用該數據集進行模型訓練和測試需要將數據集劃分成訓練集和測試集,並進行數據預處理和特徵工程等操作,這我們會在下文中進行詳細講解。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/258574.html