Fasterrcnn論文詳解

一、Fasterrcnn論文下載

首先要了解的是，我們可以從arxiv.org官網免費下載Fasterrcnn論文原文。該論文是由Ross Girshick、Shaoqing Ren、Kaiming He和Jian Sun於2015年在ICCV 2015上發表的。Fasterrcnn作為一種基於深度學習的物體檢測演算法，在圖像識別領域具有廣泛的應用。

二、Fasterrcnn詳解

Fasterrcnn演算法是在R-CNN、Fast R-CNN演算法的基礎上發展而來。相比於這兩種演算法，Fasterrcnn在準確率、速度上都得到了進一步優化。下面介紹一下Fasterrcnn演算法的主要特點。

1. RPN網路

Fasterrcnn的關鍵在於加入了RPN（Region Proposal Network）網路。RPN網路可以輸出一些候選框的信息，這些候選框在後續的分類器中將會有所應用。這樣一來，就不再需要使用Selective search等複雜的演算法來得到候選框了，顯著提升了速度。

from keras.layers import Input, Conv2D, MaxPooling2D

#定義RPN網路
input_layer = Input(shape=(None,None,3))
conv1 = Conv2D(512, (3,3), activation='relu', padding='same', name='rpn_conv1')(input_layer)
rpn = Conv2D(20, (1,1), activation='linear', padding='same', name='rpn')(conv1)
rpn_cls = Conv2D(10, (1,1), activation='sigmoid', name='rpn_cls')(rpn)#輸出候選框的類別信息
rpn_bbox = Conv2D(40, (1,1), activation='linear', name='rpn_bbox')(rpn)#輸出候選框的邊界框信息

#定義分類器
conv2 = Conv2D(256, (3,3), activation='relu', padding='same', name='conv1')(input_layer)
fasterrcnn_cls = Conv2D(10, (1,1), activation='sigmoid', name='ffcnn_cls')(conv2)#輸出物體的類別信息
fasterrcnn_bbox = Conv2D(40, (1,1), activation='linear', name='ffcnn_bbox')(conv2)#輸出邊界框信息

2. RoI Pooling

另一個特點就是RoI Pooling。 RoI（Region of Interest）對應的是候選框，也就是說每一個候選框都是一個RoI。

Fasterrcnn的RoI Pooling和Fast R-CNN的RoI Pooling不同。Fast R-CNN要求所有RoI具有相同的大小，不同大小的RoI需要通過調整大小得到規定大小。而Fasterrcnn的RoI pooling則不需要調整大小，只需在池化層中進行相應的變換即可。

from keras.layers import Lambda, concatenate
from keras.models import Model

def roi_pooling(x, ix, feat_stride, pooled_height, pooled_width):
    #根據邊界框中心點（x,y）和長寬（w,h）計算出邊框頂點的坐標
    x = Lambda(lambda x: x[:,ix:ix+1]*feat_stride)(x)#x是之前定義的rpn_bbox層的輸出
    y = Lambda(lambda x: x[:,ix+1:ix+2]*feat_stride)(x)
    w = Lambda(lambda x: x[:,ix+2:ix+3]*feat_stride)(x)
    h = Lambda(lambda x: x[:,ix+3:ix+4]*feat_stride)(x)
    #下面的運算根據得到的坐標值計算出邊框頂點坐標
    x1 = Lambda(lambda arg: arg[0]-arg[1]/2,name='x1')([x, w])
    y1 = Lambda(lambda arg: arg[0]-arg[1]/2,name='y1')([y, h])
    x2 = Lambda(lambda arg: arg[0]+arg[1]/2,name='x2')([x, w])
    y2 = Lambda(lambda arg: arg[0]+arg[1]/2,name='y2')([y, h])
    
    pooled_features = []
    for i in range(10):
　　　　　#使用兩個lambda層來實現複雜的RoI Pooling演算法
        pooled_feature = Lambda(lambda x: x[:,int(y1[i]):int(y2[i])+1,int(x1[i]):int(x2[i])+1,i])(x)
        pooled_feature = MaxPooling2D((pooled_height, pooled_width))(pooled_feature)
        pooled_features.append(pooled_feature)
    pooled_features = concatenate(pooled_features)
    return pooled_features

pooled_features = []
for i in range(10):
　　　　#roi_pooling是之前定義的函數
    pooled_feature = roi_pooling(rpn_bbox, i*4, 16, 7, 7)
    pooled_features.append(pooled_feature)
pooled_features = concatenate(pooled_features,axis=0)

fasterrcnn_cls = Conv2D(10, (1,1), activation='sigmoid', name='ffcnn_cls')(pooled_features)#輸出物體的類別信息、

3.網路結構

Fasterrcnn網路結構與其前身Fast R-CNN相似，但是有些細節處理上卻有很大的不同。整個網路架構圖如下：

4.Fasterrcnn論文的改進

Fasterrcnn演算法在原論文的基礎上也有了不少改進。例如，引入了Fpn網路，進一步提升了演算法的準確性，同時還加強了RoI Pooling的池化過程，增強了特徵的表達能力。除此之外，還有不少對演算法效率和準確性的優化。

三、其他相關論文

1. 論文FastTrack

論文”FastTrack: Real-time Tracking-by-Detection using Efficient Proposals”也是Ross Girshick和Shaoqing Ren所撰寫的一篇著名的論文。該論文提出了一種新的物體跟蹤演算法，採用候選框和依賴性圖（Dependency Graph）的思想來增強跟蹤的魯棒性和準確性。

2. FastPlanner論文

“FastPlanner: Efficient Planning for Safe Navigation in Complex Environments”是由Alberto Speranzon、Yun Chang、Weizhe Yuan、Kostas Bekris和David Lee等人於2021年發表的文章。該論文給出了一種基於深度學習的路徑規劃演算法，能夠有效地在複雜的環境中規劃路徑和避免障礙物。

3. RCNN和Fasterrcnn的區別

RCNN、Fast R-CNN和Fasterrcnn是物體檢測演算法中的三個經典演算法。RCNN和Fast R-CNN都是基於手工特徵的演算法，而Fasterrcnn則是基於深度學習的演算法，相比前兩者在速度、準確率方面都有很大的提升。Fasterrcnn的另一個特點是採用了RPN網路作為特徵提取器，可以直接預測候選框，無需比較複雜的演算法。

4. Fasterrcnn結構

Fasterrcnn網路結構採用了RPN網路作為候選框提取器，再經過RoI Pooling的處理，採用全連接層對候選框進行分類和坐標回歸等操作。整個網路結構可以看做一個多任務學習的過程，其中包括物體分類、邊界框回歸、候選框提取等多個任務。

5. Fasterrcnn中文名稱選取

Fasterrcnn的中文名稱是「快速雙階段物體檢測演算法」或者「快速區域卷積神經網路演算法」，這兩個名稱都能夠準確描述Fasterrcnn演算法的原理和特點。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/284911.html