从多个方面详细阐述Gradient Descent

一、简介

Gradient Descent,又称梯度下降法,是一种用于机器学习的优化算法。通俗地说,就是在参数空间中找到使损失函数最小化的参数值。

梯度下降算法的核心思想是沿着损失函数梯度方向的相反方向搜索最小值点,每次迭代根据当前位置的梯度值和学习率,更新参数的值,以此来不断逼进最优解。

二、原理与应用

梯度信息描述了函数在某个点的变化方向,它是求导数值在多维空间中的推广。梯度下降算法的核心思想是,从当前的参数点出发,每次移动一个步长,采用负梯度方向的方向,每次迭代能够得到一个新的解,并使目标函数值向着更小的方向逼近。

梯度下降算法是一种迭代方法,需要设置学习率,过大或过小都会影响算法的速度和稳定性。学习率过大可能会导致算法不收敛,学习率过小则会导致算法收敛过慢。一般通过交叉验证法和实验比较得出一个合适的学习率。

梯度下降算法广泛应用于神经网络、线性回归、逻辑回归等机器学习和深度学习领域。

三、算法优化

1. 随机梯度下降

梯度下降算法每次迭代需要用到全部样本的数据,运算量随样本数增加而增加,效率较低。随机梯度下降算法将全局搜索转化为随机搜索,每次只使用一个样本来更新参数,通过随机选取样本的方式避免了样本的依赖性,可以加速模型的训练。

随机梯度下降算法虽然收敛速度比梯度下降算法要快,但由于只使用一个样本而不是全部样本,可能会造成噪声的影响,导致结果不稳定。

2. 批量梯度下降

批量梯度下降算法是指每次使用一个固定大小的批量样本来更新参数,这个批量的大小称为batch size。批量梯度下降算法可以在保证更新的稳定性前提下,加速模型的训练。

批量梯度下降算法相比随机梯度下降算法,虽然迭代过程中需要运算的样本数目变多,但由于多个样本堆叠起来形成的样本都是随机的,样本的偏差因此降低,对于非凸函数求解尤为重要。

四、代码示例

1. 梯度下降

import numpy as np

def gradient_descent(x, y, alpha, num_iters):
    m = len(y)
    theta = np.zeros((2,1))
    J_history = np.zeros((num_iters,1))
    for i in range(num_iters):
        h = np.dot(x, theta)
        loss = h - y
        gradient = np.dot(x.transpose(),loss)/m
        theta = theta - alpha * gradient
        J_history[i] = compute_cost(x, y, theta)
    return theta,J_history

def compute_cost(X, y, theta):
    m = len(y)
    J = 0
    J = np.sum((np.dot(X,theta)-y)**2)/(2*m)
    return J

X = np.array([[1,1],[1,2],[1,3]])
y = np.array([[1],[2],[3]])
theta, J_history = gradient_descent(X, y, 0.1, 1000)

2. 随机梯度下降

import numpy as np

def gradient_descent(x, y, alpha, num_iters):
    m = len(y)
    theta = np.zeros((2,1))
    J_history = np.zeros((num_iters,1))
    for i in range(num_iters):
        index = np.random.randint(m)
        h = np.dot(x[index,:], theta)
        loss = h - y[index,:]
        gradient = x[index,:].transpose() * loss
        theta = theta - alpha * gradient
        J_history[i] = compute_cost(x, y, theta)
    return theta, J_history

def compute_cost(X, y, theta):
    m = len(y)
    J = 0
    J = np.sum((np.dot(X,theta)-y)**2)/(2*m)
    return J

X = np.array([[1,1],[1,2],[1,3]])
y = np.array([[1],[2],[3]])
theta, J_history = gradient_descent(X, y, 0.1, 1000)

3. 批量梯度下降

import numpy as np

def gradient_descent(x, y, alpha, num_iters,batch_size):
    m = len(y)
    theta = np.zeros((2,1))
    J_history = np.zeros((num_iters,1))
    for i in range(num_iters):
        index = np.random.choice(m,batch_size,replace=False)
        h = np.dot(x[index,:], theta)
        loss = h - y[index,:]
        gradient = np.dot(x[index,:].transpose(), loss)/batch_size
        theta = theta - alpha * gradient
        J_history[i] = compute_cost(x, y, theta)
    return theta,J_history

def compute_cost(X, y, theta):
    m = len(y)
    J = 0
    J = np.sum((np.dot(X,theta)-y)**2)/(2*m)
    return J

X = np.array([[1,1],[1,2],[1,3]])
y = np.array([[1],[2],[3]])
theta, J_history = gradient_descent(X, y, 0.1, 1000,2)

原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/288681.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小蓝小蓝
上一篇 2024-12-24 03:00
下一篇 2024-12-24 03:00

相关推荐

  • 为什么Python不能编译?——从多个方面浅析原因和解决方法

    Python作为很多开发人员、数据科学家和计算机学习者的首选编程语言之一,受到了广泛关注和应用。但与之伴随的问题之一是Python不能编译,这给基于编译的开发和部署方式带来不少麻烦…

    编程 2025-04-29
  • Java判断字符串是否存在多个

    本文将从以下几个方面详细阐述如何使用Java判断一个字符串中是否存在多个指定字符: 一、字符串遍历 字符串是Java编程中非常重要的一种数据类型。要判断字符串中是否存在多个指定字符…

    编程 2025-04-29
  • Python合并多个相同表头文件

    对于需要合并多个相同表头文件的情况,我们可以使用Python来实现快速的合并。 一、读取CSV文件 使用Python中的csv库读取CSV文件。 import csv with o…

    编程 2025-04-29
  • 从多个方面用法介绍yes,but let me review and configure level of access

    yes,but let me review and configure level of access是指在授权过程中,需要进行确认和配置级别控制的全能编程开发工程师。 一、授权确…

    编程 2025-04-29
  • 从多个方面zmjui

    zmjui是一个轻量级的前端UI框架,它实现了丰富的UI组件和实用的JS插件,让前端开发更加快速和高效。本文将从多个方面对zmjui做详细阐述,帮助读者深入了解zmjui,以便更好…

    编程 2025-04-28
  • 学Python用什么编辑器?——从多个方面评估各种Python编辑器

    选择一个适合自己的 Python 编辑器并不容易。除了我们开发的应用程序类型、我们面临的软件架构以及我们的编码技能之外,选择编辑器可能也是我们编写代码时最重要的决定之一。随着许多不…

    编程 2025-04-28
  • 使用easypoi创建多个动态表头

    本文将详细介绍如何使用easypoi创建多个动态表头,让表格更加灵活和具有可读性。 一、创建单个动态表头 easypoi是一个基于POI操作Excel的Java框架,支持通过注解的…

    编程 2025-04-28
  • 创建列表的多个方面

    本文将从多个方面对创建列表进行详细阐述。 一、列表基本概念 列表是一种数据结构,其中元素以线性方式组织,并且具有特殊的序列位置。该位置可以通过索引或一些其他方式进行访问。在编程中,…

    编程 2025-04-28
  • Python多个sheet表合并用法介绍

    本文将从多个方面对Python多个sheet表合并进行详细的阐述。 一、xlrd与xlwt模块的基础知识 xlrd与xlwt是Python中处理Excel文件的重要模块。xlrd模…

    编程 2025-04-27
  • 从多个角度用法介绍lower down

    lower down是一个常用于编程开发中的操作。它可以对某个值或变量进行降低精度的处理,非常适合于一些需要精度不高但速度快的场景。那么,在本文中,我们将从多个角度解析lower …

    编程 2025-04-27

发表回复

登录后才能评论