区分无监督学习和有监督学习的方法

小蓝 • 2024-12-03 09:52 • 编程

一、按照是否有标签对数据进行分类

有监督学习需要标记好训练数据，在训练集中，输入和相应输出都是已知的，训练模型时需要使得模型输出与实际输出一致。而在无监督学习中，训练数据不标记样本标签，算法需要自己学习隐含在数据中的模式，例如聚类、关联规则挖掘、主成分分析等。最常用的无监督学习方法是聚类，其中 K-means算法是一种常见的聚类算法。以鸢尾花数据集为例，进行有监督学习和无监督学习的比较：

from sklearn.datasets import load_iris
from sklearn.cluster import KMeans

iris_data = load_iris().data

# 有监督学习例子
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(iris_data, load_iris().target, test_size=0.3, random_state=42)

from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train, y_train)

# 无监督学习例子
kmeans = KMeans(n_clusters=3, random_state=42).fit(iris_data)

二、按照是否有明确的目标进行分类

有监督学习是解决分类、回归等问题的一种方法，具有明确的目标，即预测目标值。在训练过程中，标记好的输出将作为模型训练的目标值。而无监督学习则不具有特定的目标，它主要是用来发掘数据的内在结构、分布规律、特征提取等。因此无监督学习更适合进行数据探索、特征提取等方面的工作，例如对于一个市场上的用户数据进行无监督学习可以得到用户的兴趣偏好。

三、按照是否需要预测新数据进行分类

如果需要对新数据进行预测，就需要使用有监督学习中训练好的模型进行预测。而无监督学习的主要目的是使用潜在的结构和模式来描述已有数据，因此它不能直接对新数据进行预测。但是在一些情况下，无监督学习可以用来减少训练数据的维度，然后使用有监督的学习方法建立分类器。例如使用主成分分析（PCA）对数据降维后再进行有监督学习获取模型，可以提高分类的准确性。

from sklearn.decomposition import PCA
from sklearn.svm import SVC

# 降维后使用有监督学习
pca = PCA(n_components=2).fit(iris_data)
transformed = pca.transform(iris_data)

X_train, X_test, y_train, y_test = train_test_split(transformed, load_iris().target, test_size=0.3, random_state=42)

clf = SVC(random_state=42)
clf.fit(X_train, y_train)

四、按照模型训练方式进行分类

有监督学习是指由已知的一组输入和输出数据训练一个模型，使得该模型能够从输入数据中预测或分类未知数据的标签或输出。训练方式可以是批量梯度下降、随机梯度下降、牛顿法等。而无监督学习是利用未标记的训练数据，从中学习可以描述数据分布、结构、特征等的模型，训练方式可以是自编码器、生成对抗网络（GAN）、自然语言处理（NLP）等。

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

newsgroups_data = fetch_20newsgroups(subset='all', categories=['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc'])

vectorizer = CountVectorizer(stop_words='english', max_features=1000, max_df=0.5, min_df=2)
tfidf = vectorizer.fit_transform(newsgroups_data['data'])

# 使用 Latent Dirichlet Allocation (LDA) 进行无监督学习
lda = LatentDirichletAllocation(n_components=3, learning_method='batch', random_state=42)
lda.fit(tfidf)

原创文章，作者：小蓝，如若转载，请注明出处：https://www.506064.com/n/196029.html

赞 (0)

打赏

微信扫一扫

支付宝扫一扫

掌握PHP输出的多个方面

上一篇 2024-12-03 09:52

Python函数返回值

下一篇 2024-12-03 09:52

ArcGIS更改标注位置为中心的方法
本篇文章将从多个方面详细阐述如何在ArcGIS中更改标注位置为中心。让我们一步步来看。一、禁止标注智能调整在ArcMap中设置标注智能调整可以自动将标注位置调整到最佳显示位置。…
VBPKK
编程 2025-04-29
解决.net 6.0运行闪退的方法
如果你正在使用.net 6.0开发应用程序，可能会遇到程序闪退的情况。这篇文章将从多个方面为你解决这个问题。一、代码问题代码问题是导致.net 6.0程序闪退的主要原因之一。首…
WBKJN
编程 2025-04-29
Python中init方法的作用及使用方法
Python中的init方法是一个类的构造函数，在创建对象时被调用。在本篇文章中，我们将从多个方面详细讨论init方法的作用，使用方法以及注意点。一、定义init方法在Pyth…
ZFGFG
编程 2025-04-29
Python创建分配内存的方法
在python中，我们常常需要创建并分配内存来存储数据。不同的类型和数据结构可能需要不同的方法来分配内存。本文将从多个方面介绍Python创建分配内存的方法，包括列表、元组、字典、…
NZHSK
编程 2025-04-29
Python中读入csv文件数据的方法用法介绍
csv是一种常见的数据格式，通常用于存储小型数据集。Python作为一种广泛流行的编程语言，内置了许多操作csv文件的库。本文将从多个方面详细介绍Python读入csv文件的方法。…
CNPKK
编程 2025-04-29
使用Vue实现前端AES加密并输出为十六进制的方法
在前端开发中，数据传输的安全性问题十分重要，其中一种保护数据安全的方式是加密。本文将会介绍如何使用Vue框架实现前端AES加密并将加密结果输出为十六进制。一、AES加密介绍 AE…
FGHAD
编程 2025-04-29
用不同的方法求素数
素数是指只能被1和自身整除的正整数，如2、3、5、7、11、13等。素数在密码学、计算机科学、数学、物理等领域都有着广泛的应用。本文将介绍几种常见的求素数的方法，包括暴力枚举法、埃…
ZDPBS
编程 2025-04-29
Python学习笔记：去除字符串最后一个字符的方法
本文将从多个方面详细阐述如何通过Python去除字符串最后一个字符，包括使用切片、pop()、删除、替换等方法来实现。一、字符串切片在Python中，可以通过字符串切片的方式来…
QCJKP
编程 2025-04-29
用法介绍Python集合update方法
Python集合（set）update()方法是Python的一种集合操作方法，用于将多个集合合并为一个集合。本篇文章将从以下几个方面进行详细阐述：一、参数的含义和用法 Pyth…
MFQNB
编程 2025-04-29
Vb运行程序的三种方法
VB是一种非常实用的编程工具，它可以被用于开发各种不同的应用程序，从简单的计算器到更复杂的商业软件。在VB中，有许多不同的方法可以运行程序，包括编译器、发布程序以及命令行。在本文中…
SHSQV
编程 2025-04-29

发表回复

登录后才能评论