導言
大多數與圖像識別相關的分類問題都存在着眾所周知的/既定的問題。例如,通常情況下,沒有足夠的數據來對分類系統進行適當的訓練,這些數據涵蓋的類可能會有所不足,而且最常見的情況是,使用未經仔細檢查的數據將意味着我們對數據的標籤缺乏合理的分類。

數據是決定你的努力是失敗還是成功的關鍵。這些系統不僅僅需要比人類更多的數據來學習和區分不同的類,它們還需要成千上萬倍的數據才能相對較好的完成這項工作。
深度學習依靠大量高質量的數據來預測未來的趨勢和行為模式。並且數據集需要代表我們打算預測的類,否則,系統會”曲解”不同類的分佈,讓你的模型產生偏差。
這些問題通常有一個共同的原因:即查找、提取和存儲大量數據的能力不夠強大,以及在第二層上對數據的清除、管理和處理能力不足。
雖然我們可以提高計算能力和數據存儲能力,但這種情況只有當這是一個複雜的、大的卷積神經網絡針對一個大的數據集運行時才會考慮,只有一台機器是不可能的。因為它可能沒有足夠的空間/內存,而且很可能沒有足夠的計算能力來運行分類系統。它還需要通過雲資源”訪問”並行或分佈式計算,了解如何運行、組織和設置複雜的集群。
然而,擁有足夠的數據和處理能力並不足以防止這些問題的發生。
在這篇文章中,我們將探索和討論一些不同的技術,這些技術可以解決在處理小數據集時出現的問題,如緩解分類的不平衡,以及如何防止過度擬合。
遷移學習
“數據可能是新的煤炭”,引用自NeilLawrence的話。我們知道深度學習算法需要通過大量的標記數據從零開始訓練一個成熟的網絡,但是我們常常無法完全理解大量這個詞意味着多少數據。簡單來說,僅僅是找到滿足你訓練需求的數據量可能都會給你帶來挫折感,但是有一些技術,例如數據增強或遷移學習,將為你的模型節省大量的精力和時間。
遷移學習是一種流行的、非常強大的方法,簡而言之,它可以概括為是把已訓練好的模型參數遷移到新的模型來幫助新模型訓練。這意味着利用現有的模型並改變它以適應你自己的目標。這種方法包括”切斷”前訓練模型的最後幾個層,並使用你的數據集對它們進行再訓練。這樣做有以下優點:
它在較老的模型上建立了一個新的模型,並對圖像分類任務進行了驗證。例如,一個建立在CNN體系架構上的模型(比如由Google開發的CNN模型Inception-v3),然後經過ImageNet的預訓練;
它減少了訓練時間,因為它允許重複使用參數以實現可能需要數周才能達到的性能。
不平衡數據
通常,數據集中的一組標籤相對於其他數據集中的標籤的比例可能是不平衡的,而這個時候,所佔比例較低標的標籤組往往是我們感興趣的一組,因為它相對稀有。例如,假設我們有一個二進制分類問題,X類代表95%的數據,Y類代表其他5%的數據。因此,該模型對X類更”敏感”,對Y類不太”敏感”。當分類器的準確率達到95%時,我們只能說對X類的預測基本都是正確的。
顯然,這裡的準確性不是一個適當的”評分”。在這種情況下,我們更應該考慮的是預測錯誤的代價、預測精確度和查全率。一個合理的起點是對不同類型錯誤的二維表示,換句話說,是一個混淆矩陣。在本文中,可以將其描述為說明實際標籤與預測標籤的方法,如下圖所示。

通過存儲從模型預測中獲取的真陽性、假陽性、真陰性和假陰性的每個標籤的個數,我們可以使用查全率和精確性來估計每個標籤的性能。精度的定義是:

查全率在比率中定義為:

查全率/精確性會暴露出分類不平衡的問題,但並不能解決它。但是,有一些方法可以緩解分類不平衡的問題:
通過給每個標籤分配不同的係數;
通過對原始數據集進行重新採樣,或者對少數類進行過採樣或對多數類進行過採樣。也就是說,由於分類邊界的更”嚴格”,數據集太小容易帶來誤差,讓過採樣更容易導致過度擬合。
通過應用SMOTE方法(對少數過採樣進行合成的技術)來解決頻繁對分類數據進行複製的問題。該方法在數據增強的背後應用了相同的思想,並通過在少數類的相鄰實例之間插值來創建新的合成樣本。
過度擬合
正如我們所知,我們的模型通過反向傳播和最小化成本函數來學習/概括數據集中的關鍵特性。每一個來回的步驟都被稱為一個輪次,並且隨着每一個輪次的調整進行模型的訓練和權值的更改,以最小化錯誤的代價。為了測試模型的準確性,一個常見的規則是將數據集分為訓練集和驗證集。
訓練集用於調整和創建模型,讓模型更加符合訓練前的目的。驗證集測試基於不可見樣本模型的有效性。

儘管對實際情況的錯誤驗證會讓曲線圖有更大的起伏。

在每一個輪次結束時,我們用驗證集測試模型,在某個點上,模型開始記憶訓練集中的特徵。當我們到達某個階段時,發現驗證集上頻繁的發生錯誤並且精度變差,這說明模型是過度擬合的。
選擇網絡的大小和複雜程度將是過度擬合的決定性原因。複雜的體系結構可能更容易過度擬合,但是,有一些策略可以防止過度擬合:
增加訓練集上的樣本數量;如果對網絡進行更多實際案例的訓練,它將具有更好的普遍性;
當過擬合發生時,停止反向傳播是另一種選擇,這樣可以保證成本函數和驗證集的準確性;
採用正則化的方法是另一個流行的選擇。
L2正則化
L2正則化是一種通過向較大的個體權重進行分配約束來降低模型複雜度的方法。通過設置懲罰約束,減少模型對訓練數據的依賴。
Dropout
對於正則化來說,Dropout也是一種常見的選擇,它被用於較高層的隱藏單元上,然後我們為每個輪次建立了不同的架構。基本上,該系統隨機選擇要在訓練中去除的神經元,通過不斷地重新調整權重,網絡被迫從數據中學習更普遍的模式。
結語
正如我們所看到的,有各種不同的方法和技術來解決圖像識別中最常見的分類問題,每種方法和技術都有各自的優點和潛在的缺點。存在的一些問題是數據不平衡,過度擬合,其中最通常的問題是不會有足夠的數據可用,但是,正如我們已經解釋過的,它們可以通過遷移學習、抽樣方法和正則化技術來解決。
原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/208766.html
微信掃一掃
支付寶掃一掃