區分無監督學習和有監督學習的方法

一、按照是否有標籤對數據進行分類

有監督學習需要標記好訓練數據,在訓練集中,輸入和相應輸出都是已知的,訓練模型時需要使得模型輸出與實際輸出一致。而在無監督學習中,訓練數據不標記樣本標籤,算法需要自己學習隱含在數據中的模式,例如聚類、關聯規則挖掘、主成分分析等。最常用的無監督學習方法是聚類,其中 K-means算法是一種常見的聚類算法。以鳶尾花數據集為例,進行有監督學習和無監督學習的比較:

from sklearn.datasets import load_iris
from sklearn.cluster import KMeans

iris_data = load_iris().data

# 有監督學習例子
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(iris_data, load_iris().target, test_size=0.3, random_state=42)

from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train, y_train)

# 無監督學習例子
kmeans = KMeans(n_clusters=3, random_state=42).fit(iris_data)

二、按照是否有明確的目標進行分類

有監督學習是解決分類、回歸等問題的一種方法,具有明確的目標,即預測目標值。在訓練過程中,標記好的輸出將作為模型訓練的目標值。而無監督學習則不具有特定的目標,它主要是用來發掘數據的內在結構、分佈規律、特徵提取等。因此無監督學習更適合進行數據探索、特徵提取等方面的工作,例如對於一個市場上的用戶數據進行無監督學習可以得到用戶的興趣偏好。

三、按照是否需要預測新數據進行分類

如果需要對新數據進行預測,就需要使用有監督學習中訓練好的模型進行預測。而無監督學習的主要目的是使用潛在的結構和模式來描述已有數據,因此它不能直接對新數據進行預測。但是在一些情況下,無監督學習可以用來減少訓練數據的維度,然後使用有監督的學習方法建立分類器。例如使用主成分分析(PCA)對數據降維後再進行有監督學習獲取模型,可以提高分類的準確性。

from sklearn.decomposition import PCA
from sklearn.svm import SVC

# 降維後使用有監督學習
pca = PCA(n_components=2).fit(iris_data)
transformed = pca.transform(iris_data)

X_train, X_test, y_train, y_test = train_test_split(transformed, load_iris().target, test_size=0.3, random_state=42)

clf = SVC(random_state=42)
clf.fit(X_train, y_train)

四、按照模型訓練方式進行分類

有監督學習是指由已知的一組輸入和輸出數據訓練一個模型,使得該模型能夠從輸入數據中預測或分類未知數據的標籤或輸出。訓練方式可以是批量梯度下降、隨機梯度下降、牛頓法等。而無監督學習是利用未標記的訓練數據,從中學習可以描述數據分佈、結構、特徵等的模型,訓練方式可以是自編碼器、生成對抗網絡(GAN)、自然語言處理(NLP)等。

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

newsgroups_data = fetch_20newsgroups(subset='all', categories=['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc'])

vectorizer = CountVectorizer(stop_words='english', max_features=1000, max_df=0.5, min_df=2)
tfidf = vectorizer.fit_transform(newsgroups_data['data'])

# 使用 Latent Dirichlet Allocation (LDA) 進行無監督學習
lda = LatentDirichletAllocation(n_components=3, learning_method='batch', random_state=42)
lda.fit(tfidf)

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/196029.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-03 09:52
下一篇 2024-12-03 09:52

相關推薦

  • ArcGIS更改標註位置為中心的方法

    本篇文章將從多個方面詳細闡述如何在ArcGIS中更改標註位置為中心。讓我們一步步來看。 一、禁止標註智能調整 在ArcMap中設置標註智能調整可以自動將標註位置調整到最佳顯示位置。…

    編程 2025-04-29
  • 解決.net 6.0運行閃退的方法

    如果你正在使用.net 6.0開發應用程序,可能會遇到程序閃退的情況。這篇文章將從多個方面為你解決這個問題。 一、代碼問題 代碼問題是導致.net 6.0程序閃退的主要原因之一。首…

    編程 2025-04-29
  • Python中init方法的作用及使用方法

    Python中的init方法是一個類的構造函數,在創建對象時被調用。在本篇文章中,我們將從多個方面詳細討論init方法的作用,使用方法以及注意點。 一、定義init方法 在Pyth…

    編程 2025-04-29
  • Python創建分配內存的方法

    在python中,我們常常需要創建並分配內存來存儲數據。不同的類型和數據結構可能需要不同的方法來分配內存。本文將從多個方面介紹Python創建分配內存的方法,包括列表、元組、字典、…

    編程 2025-04-29
  • Python中讀入csv文件數據的方法用法介紹

    csv是一種常見的數據格式,通常用於存儲小型數據集。Python作為一種廣泛流行的編程語言,內置了許多操作csv文件的庫。本文將從多個方面詳細介紹Python讀入csv文件的方法。…

    編程 2025-04-29
  • 使用Vue實現前端AES加密並輸出為十六進制的方法

    在前端開發中,數據傳輸的安全性問題十分重要,其中一種保護數據安全的方式是加密。本文將會介紹如何使用Vue框架實現前端AES加密並將加密結果輸出為十六進制。 一、AES加密介紹 AE…

    編程 2025-04-29
  • 用不同的方法求素數

    素數是指只能被1和自身整除的正整數,如2、3、5、7、11、13等。素數在密碼學、計算機科學、數學、物理等領域都有着廣泛的應用。本文將介紹幾種常見的求素數的方法,包括暴力枚舉法、埃…

    編程 2025-04-29
  • Python學習筆記:去除字符串最後一個字符的方法

    本文將從多個方面詳細闡述如何通過Python去除字符串最後一個字符,包括使用切片、pop()、刪除、替換等方法來實現。 一、字符串切片 在Python中,可以通過字符串切片的方式來…

    編程 2025-04-29
  • 用法介紹Python集合update方法

    Python集合(set)update()方法是Python的一種集合操作方法,用於將多個集合合併為一個集合。本篇文章將從以下幾個方面進行詳細闡述: 一、參數的含義和用法 Pyth…

    編程 2025-04-29
  • Vb運行程序的三種方法

    VB是一種非常實用的編程工具,它可以被用於開發各種不同的應用程序,從簡單的計算器到更複雜的商業軟件。在VB中,有許多不同的方法可以運行程序,包括編譯器、發佈程序以及命令行。在本文中…

    編程 2025-04-29

發表回復

登錄後才能評論