Imagenet-1k——完整用於計算機視覺和深度學習的圖像數據集

一、Imagenet1K有多少圖片


import os

class_list = sorted(os.listdir('imagenet/imagenet_train/'))
img_num = 0

for classname in class_list:
    class_path = os.path.join('imagenet/imagenet_train/', classname)
    img_num += len(os.listdir(class_path))

print("總共有{}張圖片".format(img_num))

Imagenet-1k數據集共包含1000個不同的物體類別，每個類別有1000張大小為224×224的彩色圖像，因此總共有1000×1000=1000000張圖片。這些圖片是由Amazon Mechanical Turk的眾包工作者標註的。對於每個圖像，會有一個平均20次的人工標籤結果。

總體而言，Imagenet-1k數據集主要有三個部分組成：訓練集（共有1000個文件夾，每個文件夾表示一個物體類別，文件夾內有1000張圖像）、驗證集（共有50,000張圖像，每個物體類別取50張圖像）、測試集（共有大約100,000張圖像，不公開標籤，提交測試結果到Imagenet官方網站獲取最終模型評價結果）。

二、Imagenet1k數據集多少G


import os

path = 'imagenet/'

total_size = 0
for root, dirs, files in os.walk(path):
    for file in files:
        total_size += os.path.getsize(os.path.join(root, file))

print("總共需要{}GB的存儲空間".format(round(total_size/(1024**3), 2)))

Imagenet-1k數據集總共需要128.69 GB的存儲空間。雖然Imagenet-1k數據集對硬碟存儲空間要求較高，但是對於計算機視覺、深度學習相關的演算法研究，使用Imagenet-1k數據集極其有價值。該數據集的規模是絕大多數學術論文所使用分類數據集得不到比擬的。

三、Imagenet1K數據集多少g


import os

class_list = sorted(os.listdir('imagenet/imagenet_train/'))

class_size_kb = []
for classname in class_list:
    class_path = os.path.join('imagenet/imagenet_train/', classname)
    size = 0
    for root, dirs, files in os.walk(class_path):
        for file in files:
            size += os.path.getsize(os.path.join(root, file))
    class_size_kb.append(round(size/1024, 2))

max_class_size = max(class_size_kb)
min_class_size = min(class_size_kb)
avg_size = round(sum(class_size_kb)/len(class_size_kb), 2)

print("單個類別中最大的圖片大小為{}KB，最小為{}KB，平均大小為{}KB".format(max_class_size, min_class_size, avg_size))

在Imagenet-1k數據集中，所有圖像數據的大小會因為所表示的物體類別不同而存在較大差異。上述代碼計算了Imagenet-1k數據集中每個類別中圖像數據的大小，並給出了單個類別中最大的圖片大小、最小的圖片大小、以及平均圖片大小。運行結果顯示，單個類別中最大的圖片大小為192.35KB，最小為2.72KB，平均大小為878.28KB。

四、Imagenet1K數據集的實用性

1. 作為圖像分類的基準數據集

Imagenet-1k數據集是計算機視覺和深度學習領域圖像分類模型的基準數據集之一。許多研究工作都是通過在Imagenet-1k數據集上進行實驗來證明其新模型的有效性。在Imagenet-1k數據集上訓練模型非常需要技術和計算資源，因此該數據集已經成為圖像分類準確性的一個標杆。不管是在學術界還是實際應用中，評估圖像分類演算法和模型的準確性、效率都需要使用Imagenet-1k。

2. 作為深度學習預訓練模型的訓練數據

Imagenet-1k數據集能夠用於較低層級的特徵學習和模型預訓練。因為Imagenet-1k數據集規模很大，模型訓練可以利用該數據集的豐富信息，並將訓練的模型作為計算機視覺、圖像處理等任務中的預訓練模型。根據觀察，已經訓練好的模型通過遷移到其他計算機視覺任務，能夠取得更快的訓練速度和更好的降低損失的效果。在實際應用中，Imagenet-1k數據集和預訓練模型可以廣泛應用於各種視覺任務，例如識別、檢測、定位等等。

3. 實際應用案例

除了在學術界中的應用，Imagenet-1k數據集還廣泛應用於實際應用中，例如：


import torch
from torchvision import datasets, transforms, models

# define device
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# load imagenet-1k pre-trained model
model = models.vgg16(pretrained=True)
model.to(device)

# define transform
transform = transforms.Compose([transforms.Resize(256),
                                transforms.CenterCrop((224, 224)),
                                transforms.ToTensor(),
                                transforms.Normalize(mean=[0.485, 0.456, 0.406],
                                                     std=[0.229, 0.224, 0.225])])

# load test image
img_path = 'test_img/example.jpg'
img = Image.open(img_path).convert('RGB')
img_tensor = transform(img)
img_tensor = img_tensor.unsqueeze(0).to(device)

# predict the class of test image
model.eval()
with torch.no_grad():
    output = model(img_tensor)
    pred = torch.argmax(output, dim=1)
    class_dict = datasets.ImageFolder('imagenet/imagenet_train/').class_to_idx
    pred_name = list(class_dict.keys())[list(class_dict.values()).index(pred.item())]
    print("The prediction result is:", pred_name)

通過載入Imagenet-1k預訓練的VGG16模型，然後使用GPU對載入的測試圖像進行預測，輸出預測結果。可以發現，Imagenet-1k數據集的應用能夠使計算機視覺演算法得到更好的實際效果，例如對於圖像分類、低層級特徵學習和模型預訓練等。

原創文章，作者：OQUSO，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/363820.html