深度學習之hierarchicalsoftmax

一、什麼是hierarchicalsoftmax

hierarchicalsoftmax是一種用於優化神經網路中softmax函數計算速度的方法。在傳統的softmax函數中,需要對每個候選類別計算概率,這導致計算量呈指數級增長。Huffman樹是一種二叉樹結構,旨在通過分配更短的編碼來最小化字元編碼的平均長度。基於Huffman樹,hierarchicalsoftmax可以將softmax計算複雜度減少為O(log(n)),其中n是類別總數。

在hierarchicalsoftmax中,所有可能的輸出類別都被視為二叉樹的節點。每個節點都有一段唯一的編碼。在推斷時,softmax操作沿著樹從根節點開始移動,直到找到輸出節點並計算對應的概率。

通俗地理解,hierarchicalsoftmax可以看作是將原本softmax中的每個類別映射為一個節點,然後用二叉樹的形式展示。每個節點都可以得到一個唯一的binary code。在實際中,用hierarchicalsoftmax代替傳統softmax可以大幅度地減少參數大小和模型複雜度,從而加速模型訓練和推理。

二、hierarchicalsoftmax的優點

1.減少模型參數:hierarchicalsoftmax通過二叉樹結構來組織類別標籤,有效降低了softmax的計算複雜度。相應的,也能減少模型的參數數量和計算時間。

2.更快的訓練和推理速度:傳統softmax方法需要計算每個輸出類別的概率值,而hierarchicalsoftmax只需要向下遍歷Huffman樹即可。因此,hierarchicalsoftmax可以顯著減少計算量,提高訓練和推理效率。

3.適合處理大規模分類問題:由於傳統的softmax方法需要計算所有可能的類別的概率值,因此對於大規模分類問題計算量過大,而hierarchicalsoftmax可以在常規硬體設備上處理上百萬個類別的分類問題。

三、如何使用hierarchicalsoftmax

在tensorflow中,可以通過設置softmax_weights和softmax_biases的參數實現hierarchicalsoftmax。先用一個batch對模型進行一次forward,通過實例化HuffmanTree類,將訓練數據傳入。創建完成Huffman樹後,即可計算對應節點的編碼和概率值。


import tensorflow as tf
from tensorflow.contrib.framework import nest
from tensorflow.contrib.rnn import LSTMStateTuple
from tensorflow.python.ops.rnn import dynamic_rnn

logit = tf.contrib.layers.fully_connected(
    inputs=last_outputs,
    num_outputs=output_dimension,
    activation_fn=None,
    weights_initializer=tf.truncated_normal_initializer(stddev=1e-4),
    biases_initializer=tf.zeros_initializer(),
    scope='hierarchical_softmax_logit'
)

# create a softmax weight matrix for each branch
hierarchical_softmax_weights = [tf.Variable(
    tf.truncated_normal([branch_size, output_dimension], stddev=1e-4),
    name="hierarchical_softmax_weights_%d" % i)
for i, branch_size in enumerate(huffman_tree.branch_sizes)]

# split the variables into a list for each branch
hierarchical_softmax_weights_branches = nest.pack_sequence_as(
    structure=huffman_tree.branch_sizes,
    flat_sequence=hierarchical_softmax_weights)

# compute the logits for each branch
logits = nest.map_structure(
    lambda w: tf.matmul(last_outputs, w, transpose_b=True),
    hierarchical_softmax_weights_branches)

# induce a softmax on them
softmaxes = nest.map_structure(
    lambda l: tf.nn.softmax(l, dim=1),
    logits)

# assign unique paths from the root node to all of the leafs
hierarchical_paths = huffman_tree.paths()

# get the full word embeddings for each unique word in the tree
full_embeddings = tf.gather(
    params=full_embeddings,
    indices=huffman_tree.word_ids())

weights_t = tf.transpose(hierarchical_softmax_weights_branches, [1, 0, 2])
weights_flat = tf.reshape(weights_t, [-1, output_dimension])

biases_flat = tf.Variable(
    tf.zeros([tf.reduce_sum(huffman_tree.branch_sizes)]),
    name="hierarchical_softmax_biases")

hierarchical_softmax_biases_branches = tf.split(
    biases_flat, huffman_tree.branch_sizes)

biases = nest.pack_sequence_as(
    structure=hierarchical_softmax_weights_branches,
    flat_sequence=hierarchical_softmax_biases_branches)

l_prods = nest.map_structure(
    lambda s, l: tf.matmul(l, s, transpose_b=True), hierarchical_paths, softmaxes)

prods = tf.reduce_prod(l_prods, axis=0)

dot = tf.matmul(full_embeddings, weights_flat, transpose_b=True)

z = tf.add(dot, biases_flat)

pred = tf.multiply(z, prods)

prediction = tf.nn.softmax(pred, 1)

loss = tf.losses.sparse_softmax_cross_entropy(labels=labels, logits=pred)

四、hierarchicalsoftmax的局限性和應用

1.局限性:由於hierarchicalsoftmax是依靠Huffman樹構建的,因此其對類別分布的偏置和採樣方式較為敏感。在類別分布不均衡的情況下,Huffman樹的構建往往會是非常非常慢,甚至不可用。

2.應用:hierarchicalsoftmax在大規模分類問題中表現出了優異的性能。例如,可以通過構建超大型的分類詞典以實現高級的文本語言建模。hierarchicalsoftmax也可以用於其他類型的分類問題,例如多標籤分類。

五、小結

hierarchicalsoftmax是一種用於提高softmax計算速度的演算法。相比傳統softmax,改進方案通過構建Huffman樹,將分類問題以一種更加簡潔的方式來展示。在大規模分類問題中,hierarchicalsoftmax是一種值得嘗試的演算法。

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/237035.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-12 12:03
下一篇 2024-12-12 12:03

相關推薦

  • 深度查詢宴會的文化起源

    深度查詢宴會,是指通過對一種文化或主題的深度挖掘和探究,為參與者提供一次全方位的、深度體驗式的文化品嘗和交流活動。本文將從多個方面探討深度查詢宴會的文化起源。 一、宴會文化的起源 …

    編程 2025-04-29
  • Python下載深度解析

    Python作為一種強大的編程語言,在各種應用場景中都得到了廣泛的應用。Python的安裝和下載是使用Python的第一步,對這個過程的深入了解和掌握能夠為使用Python提供更加…

    編程 2025-04-28
  • Python遞歸深度用法介紹

    Python中的遞歸函數是一個函數調用自身的過程。在進行遞歸調用時,程序需要為每個函數調用開闢一定的內存空間,這就是遞歸深度的概念。本文將從多個方面對Python遞歸深度進行詳細闡…

    編程 2025-04-27
  • Spring Boot本地類和Jar包類載入順序深度剖析

    本文將從多個方面對Spring Boot本地類和Jar包類載入順序做詳細的闡述,並給出相應的代碼示例。 一、類載入機制概述 在介紹Spring Boot本地類和Jar包類載入順序之…

    編程 2025-04-27
  • 深度解析Unity InjectFix

    Unity InjectFix是一個非常強大的工具,可以用於在Unity中修復各種類型的程序中的問題。 一、安裝和使用Unity InjectFix 您可以通過Unity Asse…

    編程 2025-04-27
  • 深度剖析:cmd pip不是內部或外部命令

    一、問題背景 使用Python開發時,我們經常需要使用pip安裝第三方庫來實現項目需求。然而,在執行pip install命令時,有時會遇到「pip不是內部或外部命令」的錯誤提示,…

    編程 2025-04-25
  • 動手學深度學習 PyTorch

    一、基本介紹 深度學習是對人工神經網路的發展與應用。在人工神經網路中,神經元通過接受輸入來生成輸出。深度學習通常使用很多層神經元來構建模型,這樣可以處理更加複雜的問題。PyTorc…

    編程 2025-04-25
  • 深度解析Ant Design中Table組件的使用

    一、Antd表格兼容 Antd是一個基於React的UI框架,Table組件是其重要的組成部分之一。該組件可在各種瀏覽器和設備上進行良好的兼容。同時,它還提供了多個版本的Antd框…

    編程 2025-04-25
  • 深度解析MySQL查看當前時間的用法

    MySQL是目前最流行的關係型資料庫管理系統之一,其提供了多種方法用於查看當前時間。在本篇文章中,我們將從多個方面來介紹MySQL查看當前時間的用法。 一、當前時間的獲取方法 My…

    編程 2025-04-24
  • 深度學習魚書的多個方面詳解

    一、基礎知識介紹 深度學習魚書是一本系統性的介紹深度學習的圖書,主要介紹深度學習的基礎知識和數學原理,並且通過相關的應用案例來幫助讀者理解深度學習的應用場景和方法。在了解深度學習之…

    編程 2025-04-24

發表回復

登錄後才能評論