从多个方面详细阐述umap降维

一、umap降维的优势

umap降维是一种非线性的降维算法,与传统的线性降维算法相比,有着以下优势:

1、非线性特征提取能力更强:传统的线性降维算法依赖于数据的线性结构,在处理非线性结构的数据时表现较差。而umap可以对数据中的非线性结构进行有效提取,使得降维后的数据更具代表性。

2、保留数据间的局部结构和全局结构:umap不仅可以保留数据间的全局结构,还可以保留数据间的局部结构。这意味着umap在降维后仍然能够表现出原始数据的一些关键特征,使得数据更加有分析和判断价值。

3、计算效率高:umap基于蒙特卡罗方法求解,计算效率高,无需对输入数据进行特殊的预处理,能够处理大量高维数据。

二、umap降维实现方法

umap的实现方法主要包括以下几个步骤:

1、计算相似度矩阵:umap需要先计算出输入数据中每个数据点之间的相似度。可以通过计算欧式距离、余弦距离或其他距离指标来获得。相似度矩阵的大小为n*n,n代表的是数据点的个数。

import numpy as np
from sklearn.metrics import pairwise_distances

def similarity_matrix(X, n_neighbors=15, metric='euclidean', **kwargs):
    D_mat = pairwise_distances(X, metric=metric, **kwargs)
    indices = np.argsort(D_mat)[:, 1:n_neighbors+1]
    sim = np.zeros_like(D_mat)
    for i, idx in enumerate(indices):
        #calculate the minimal spanning tree of node i
        #then make each component of the tree equally weighted
        t = np.zeros(n_neighbors)
        t[0] = np.inf
        J = idx[1:]
        S, P = compute_similarity_one_vs_all(D_mat[J][:, J], t[1:])
        sim[i, J] = S
        sim[J, i] = S
    sim[np.arange(len(sim)), np.arange(len(sim))] = 1.0
    return sim

2、构建高维空间中的最小生成树:umap使用最小生成树(Minimum Spanning Tree)算法来保留数据之间的全局结构。最小生成树是一种包含输入数据中所有数据点的树形结构,能够最小化数据点间的距离和。在umap中,最小生成树用于构建高维空间中的“邻居图”,即每个数据点周围最近的n_neighbors个数据点。

def minimal_spanning_tree(X, n_neighbors=15, path_method='randomized', **kwargs):
    Dmat = pairwise_distances(X, metric=metric, **kwargs)
    import scipy.sparse.csgraph as csgraph
    import warnings
    with warnings.catch_warnings():
        warnings.simplefilter('ignore')
        kdTree = KDTree(X)
        indices = kdTree.query(X, k=n_neighbors+1, return_distance=False)[:, 1:].astype(np.int32)
        if path_method == 'randomized':
            indices = np.random.permutation(indices)
            indices, _ = make_indices(indices)
        elif path_method == 'bfs':
            indices, _ = make_indices(indices)
        else:
            indices = kneighbors_graph(X, n_neighbors=n_neighbors, mode='distance')
        tree = csgraph.minimum_spanning_tree(csgraph.lil_matrix((Dmat[indices[:, 0], indices[:, 1]], (indices[:, 0], indices[:, 1]))))
        return tree, indices, Dmat

3、构建低维空间中的图:根据高维空间中的邻居图,umap使用高斯核函数或者t分布来计算数据在低维空间的相似度,并且获得该图的结构。这个过程就是在低维空间中重现高维空间的局部结构。

def compute_low_dim_affinities(data, graph, n_neighbors=15, local_connectivity=1.0, bandwidth=1.0):
    rows = graph.row
    cols = graph.col
    row_batch_size = max(int(len(rows) / 10) + 1, 1000)  
    affinity_rows = []
    affinity_cols = []
    affinity_vals = []
    head = 0
    while head < len(rows):
        tail = min(head + row_batch_size, len(rows))
        block_rows = rows[head:tail]
        block_cols = cols[head:tail]
        block_lvals = graph.data[head:tail]
        weights, distances, rp_forest = compute_mappings(data, block_rows, block_cols, n_neighbors,
                                          local_connectivity=local_connectivity, bandwidth=bandwidth)
        new_rows, new_cols, new_vals = compute_affinities(block_rows, block_cols, block_lvals, weights,
                                                         distances, n_neighbors, rp_forest)
        affinity_rows.append(new_rows)
        affinity_cols.append(new_cols)
        affinity_vals.append(new_vals)
        head = tail

    rows = np.concatenate(affinity_rows)
    cols = np.concatenate(affinity_cols)
    vals = np.concatenate(affinity_vals)
    graph = coo_matrix((vals, (rows, cols)), shape=(graph.shape[0],graph.shape[0]))
    graph.eliminate_zeros()

    return graph

三、umap的应用场景

umap降维算法的应用场景非常广泛,具体有以下几个方面的应用:

1、图像处理:umap可以将高维图像数据降维至二维或三维,便于可视化。同时,umap还可以在训练神经网络的时候作为”特征提取”的步骤,从而提高模型训练的效率。

2、文本挖掘:umap可以降维文本数据的高维特征向量,并通过可视化的方式帮助数据分析师快速分析和理解文本数据的特征和结构。

3、高通量数据分析:umap在高通量数据的降维分析中被广泛应用,如基因表达谱和蛋白质结构分析。通过umap的降维可视化,分析者可以更快捷地找到有关生物实体、所需时间尺度和相关性的模式。

四、umap的优化及改进

umap的原始版本实现上有一些性能问题,并且并不适用于所有的数据集。而近年来,社区已经提出了一系列的改进方案:

1、批量处理:可以将较大的数据集分批次处理,以便提高umap处理大数据集的效率。

2、自适应距离:可在构建多个邻居图时使用自适应距离,以更好地捕捉不同尺度的数据结构。

3、核方法扩展:核方法可以扩展到许多领域,比如图像和自然语言处理,这些领域数据的维度非常高。

4、加速近似计算:可以使用加速近似计算来降低umap在大规模数据上的执行时间。

五、总结

umap是一种先进的降维算法,具有很多优势,如强大的非线性特征提取能力和计算效率高等,越来越受到数据科学家和研究人员的重视。通过实现umap,我们可以更好地了解umap的实现细节,以及如何将umap应用于不同的领域和场景中。

原创文章,作者:RTOB,如若转载,请注明出处:https://www.506064.com/n/131175.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
RTOBRTOB
上一篇 2024-10-03 23:43
下一篇 2024-10-03 23:43

相关推荐

  • 为什么Python不能编译?——从多个方面浅析原因和解决方法

    Python作为很多开发人员、数据科学家和计算机学习者的首选编程语言之一,受到了广泛关注和应用。但与之伴随的问题之一是Python不能编译,这给基于编译的开发和部署方式带来不少麻烦…

    编程 2025-04-29
  • Java判断字符串是否存在多个

    本文将从以下几个方面详细阐述如何使用Java判断一个字符串中是否存在多个指定字符: 一、字符串遍历 字符串是Java编程中非常重要的一种数据类型。要判断字符串中是否存在多个指定字符…

    编程 2025-04-29
  • Python合并多个相同表头文件

    对于需要合并多个相同表头文件的情况,我们可以使用Python来实现快速的合并。 一、读取CSV文件 使用Python中的csv库读取CSV文件。 import csv with o…

    编程 2025-04-29
  • 从多个方面用法介绍yes,but let me review and configure level of access

    yes,but let me review and configure level of access是指在授权过程中,需要进行确认和配置级别控制的全能编程开发工程师。 一、授权确…

    编程 2025-04-29
  • 从多个方面zmjui

    zmjui是一个轻量级的前端UI框架,它实现了丰富的UI组件和实用的JS插件,让前端开发更加快速和高效。本文将从多个方面对zmjui做详细阐述,帮助读者深入了解zmjui,以便更好…

    编程 2025-04-28
  • 学Python用什么编辑器?——从多个方面评估各种Python编辑器

    选择一个适合自己的 Python 编辑器并不容易。除了我们开发的应用程序类型、我们面临的软件架构以及我们的编码技能之外,选择编辑器可能也是我们编写代码时最重要的决定之一。随着许多不…

    编程 2025-04-28
  • 使用easypoi创建多个动态表头

    本文将详细介绍如何使用easypoi创建多个动态表头,让表格更加灵活和具有可读性。 一、创建单个动态表头 easypoi是一个基于POI操作Excel的Java框架,支持通过注解的…

    编程 2025-04-28
  • 创建列表的多个方面

    本文将从多个方面对创建列表进行详细阐述。 一、列表基本概念 列表是一种数据结构,其中元素以线性方式组织,并且具有特殊的序列位置。该位置可以通过索引或一些其他方式进行访问。在编程中,…

    编程 2025-04-28
  • Python多个sheet表合并用法介绍

    本文将从多个方面对Python多个sheet表合并进行详细的阐述。 一、xlrd与xlwt模块的基础知识 xlrd与xlwt是Python中处理Excel文件的重要模块。xlrd模…

    编程 2025-04-27
  • 从多个角度用法介绍lower down

    lower down是一个常用于编程开发中的操作。它可以对某个值或变量进行降低精度的处理,非常适合于一些需要精度不高但速度快的场景。那么,在本文中,我们将从多个角度解析lower …

    编程 2025-04-27

发表回复

登录后才能评论