Cross Validation: 从多个方面详解交叉验证

一、什么是交叉验证

交叉验证是评估模型性能的一种统计分析方法。在机器学习中,交叉验证通常用于训练集和测试集的选择,以避免过度拟合。交叉验证将数据分成若干组,然后将每组数据分别作为测试集和训练集,统计结果进行得出最终的性能评估。常用的交叉验证方法包括k-fold交叉验证和leave-one-out交叉验证。

二、k-fold交叉验证

k-fold交叉验证将数据集分成k组,每次将1组数据作为测试集,其他组数据作为训练集。重复k次,每次都用不同的组作为测试集,并且每个测试集中的数据都用于训练集。最后将k次的测试结果取平均值,得到最终的模型性能评估。

from sklearn.model_selection import KFold
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np

data = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
target = np.array([3, 7, 11, 15, 19])

kf = KFold(n_splits=3)
lr = LinearRegression()

for train_index, test_index in kf.split(data):
    X_train, X_test = data[train_index], data[test_index]
    y_train, y_test = target[train_index], target[test_index]
    lr.fit(X_train, y_train)
    y_pred = lr.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)
    print("MSE: ", mse)

三、leave-one-out交叉验证

leave-one-out交叉验证就是将每个样本都作为测试集,其他样本作为训练集,重复n次,n为样本个数。因为每次训练集只有1个样本,所以计算开销很大,一般只适用于样本量较少的情况。

from sklearn.model_selection import LeaveOneOut
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np

data = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
target = np.array([3, 7, 11, 15, 19])

loo = LeaveOneOut()
lr = LinearRegression()

mse_list = []
for train_index, test_index in loo.split(data):
    X_train, X_test = data[train_index], data[test_index]
    y_train, y_test = target[train_index], target[test_index]
    lr.fit(X_train, y_train)
    y_pred = lr.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)
    mse_list.append(mse)
avg_mse = np.mean(mse_list)
print("Avg MSE: ", avg_mse)

四、交叉验证的参数选择

在使用交叉验证进行模型评估时,需要选择不同的参数来得出最优的模型。通常可以使用网格搜索来选择最佳参数组合。网格搜索通过枚举不同参数组合,对每组参数进行交叉验证,选择平均性能最好的一组作为最终的模型参数。

from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import Ridge
import numpy as np

data = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
target = np.array([3, 7, 10, 14, 18])

parameters = {'alpha':np.logspace(-3, 3, 7)}
ridge = Ridge()
clf = GridSearchCV(ridge, parameters, cv=3)
clf.fit(data, target)

print("Best Parameter: ", clf.best_params_)
print("Best Score: ", clf.best_score_)

五、交叉验证的优缺点

交叉验证的优点:

  • 可以利用所有的数据进行模型的评估,避免了数据的浪费。
  • 可以减小训练误差和测试误差的方差,提高模型的稳定性和泛化能力。

交叉验证的缺点:

  • 计算开销较大,尤其是在样本量较大时。
  • 不适用于非随机数据集,例如时间序列数据集。
  • 可能会出现过度拟合,特别是在使用网格搜索选择参数时。

原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/245170.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小蓝小蓝
上一篇 2024-12-12 13:06
下一篇 2024-12-12 13:06

相关推荐

  • 为什么Python不能编译?——从多个方面浅析原因和解决方法

    Python作为很多开发人员、数据科学家和计算机学习者的首选编程语言之一,受到了广泛关注和应用。但与之伴随的问题之一是Python不能编译,这给基于编译的开发和部署方式带来不少麻烦…

    编程 2025-04-29
  • Java判断字符串是否存在多个

    本文将从以下几个方面详细阐述如何使用Java判断一个字符串中是否存在多个指定字符: 一、字符串遍历 字符串是Java编程中非常重要的一种数据类型。要判断字符串中是否存在多个指定字符…

    编程 2025-04-29
  • Python合并多个相同表头文件

    对于需要合并多个相同表头文件的情况,我们可以使用Python来实现快速的合并。 一、读取CSV文件 使用Python中的csv库读取CSV文件。 import csv with o…

    编程 2025-04-29
  • 从多个方面用法介绍yes,but let me review and configure level of access

    yes,but let me review and configure level of access是指在授权过程中,需要进行确认和配置级别控制的全能编程开发工程师。 一、授权确…

    编程 2025-04-29
  • 从多个方面zmjui

    zmjui是一个轻量级的前端UI框架,它实现了丰富的UI组件和实用的JS插件,让前端开发更加快速和高效。本文将从多个方面对zmjui做详细阐述,帮助读者深入了解zmjui,以便更好…

    编程 2025-04-28
  • 学Python用什么编辑器?——从多个方面评估各种Python编辑器

    选择一个适合自己的 Python 编辑器并不容易。除了我们开发的应用程序类型、我们面临的软件架构以及我们的编码技能之外,选择编辑器可能也是我们编写代码时最重要的决定之一。随着许多不…

    编程 2025-04-28
  • 使用easypoi创建多个动态表头

    本文将详细介绍如何使用easypoi创建多个动态表头,让表格更加灵活和具有可读性。 一、创建单个动态表头 easypoi是一个基于POI操作Excel的Java框架,支持通过注解的…

    编程 2025-04-28
  • 创建列表的多个方面

    本文将从多个方面对创建列表进行详细阐述。 一、列表基本概念 列表是一种数据结构,其中元素以线性方式组织,并且具有特殊的序列位置。该位置可以通过索引或一些其他方式进行访问。在编程中,…

    编程 2025-04-28
  • Python多个sheet表合并用法介绍

    本文将从多个方面对Python多个sheet表合并进行详细的阐述。 一、xlrd与xlwt模块的基础知识 xlrd与xlwt是Python中处理Excel文件的重要模块。xlrd模…

    编程 2025-04-27
  • 从多个角度用法介绍lower down

    lower down是一个常用于编程开发中的操作。它可以对某个值或变量进行降低精度的处理,非常适合于一些需要精度不高但速度快的场景。那么,在本文中,我们将从多个角度解析lower …

    编程 2025-04-27

发表回复

登录后才能评论