一、按照是否有標籤對數據進行分類
有監督學習需要標記好訓練數據,在訓練集中,輸入和相應輸出都是已知的,訓練模型時需要使得模型輸出與實際輸出一致。而在無監督學習中,訓練數據不標記樣本標籤,演算法需要自己學習隱含在數據中的模式,例如聚類、關聯規則挖掘、主成分分析等。最常用的無監督學習方法是聚類,其中 K-means演算法是一種常見的聚類演算法。以鳶尾花數據集為例,進行有監督學習和無監督學習的比較:
from sklearn.datasets import load_iris from sklearn.cluster import KMeans iris_data = load_iris().data # 有監督學習例子 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(iris_data, load_iris().target, test_size=0.3, random_state=42) from sklearn.tree import DecisionTreeClassifier clf = DecisionTreeClassifier(random_state=42) clf.fit(X_train, y_train) # 無監督學習例子 kmeans = KMeans(n_clusters=3, random_state=42).fit(iris_data)
二、按照是否有明確的目標進行分類
有監督學習是解決分類、回歸等問題的一種方法,具有明確的目標,即預測目標值。在訓練過程中,標記好的輸出將作為模型訓練的目標值。而無監督學習則不具有特定的目標,它主要是用來發掘數據的內在結構、分布規律、特徵提取等。因此無監督學習更適合進行數據探索、特徵提取等方面的工作,例如對於一個市場上的用戶數據進行無監督學習可以得到用戶的興趣偏好。
三、按照是否需要預測新數據進行分類
如果需要對新數據進行預測,就需要使用有監督學習中訓練好的模型進行預測。而無監督學習的主要目的是使用潛在的結構和模式來描述已有數據,因此它不能直接對新數據進行預測。但是在一些情況下,無監督學習可以用來減少訓練數據的維度,然後使用有監督的學習方法建立分類器。例如使用主成分分析(PCA)對數據降維後再進行有監督學習獲取模型,可以提高分類的準確性。
from sklearn.decomposition import PCA from sklearn.svm import SVC # 降維後使用有監督學習 pca = PCA(n_components=2).fit(iris_data) transformed = pca.transform(iris_data) X_train, X_test, y_train, y_test = train_test_split(transformed, load_iris().target, test_size=0.3, random_state=42) clf = SVC(random_state=42) clf.fit(X_train, y_train)
四、按照模型訓練方式進行分類
有監督學習是指由已知的一組輸入和輸出數據訓練一個模型,使得該模型能夠從輸入數據中預測或分類未知數據的標籤或輸出。訓練方式可以是批量梯度下降、隨機梯度下降、牛頓法等。而無監督學習是利用未標記的訓練數據,從中學習可以描述數據分布、結構、特徵等的模型,訓練方式可以是自編碼器、生成對抗網路(GAN)、自然語言處理(NLP)等。
from sklearn.datasets import fetch_20newsgroups from sklearn.feature_extraction.text import CountVectorizer from sklearn.decomposition import LatentDirichletAllocation newsgroups_data = fetch_20newsgroups(subset='all', categories=['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc']) vectorizer = CountVectorizer(stop_words='english', max_features=1000, max_df=0.5, min_df=2) tfidf = vectorizer.fit_transform(newsgroups_data['data']) # 使用 Latent Dirichlet Allocation (LDA) 進行無監督學習 lda = LatentDirichletAllocation(n_components=3, learning_method='batch', random_state=42) lda.fit(tfidf)
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/196029.html