๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
AI/๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

VGGNet (ICLR 2015) ์š”์•ฝ ๋ฐ ๋ฆฌ๋ทฐ

by kaizen_bh 2024. 1. 29.

 

Very Deep Convolutional Networks for Large-Scale Image Recognition
https://arxiv.org/abs/1409.1556

 

 

I. Introduction

  • ํ•ด๋‹น ๋…ผ๋ฌธ์€ ๋ชจ๋ธ์˜ ๋ ˆ์ด์–ด๋ฅผ ๋” ๊นŠ๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒƒ์— ์ค‘์ ์„ ๋‘์—ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ๋‹ค๋ฅธ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์„ ๊ณ ์ •ํ•˜๊ณ  3x3 ํฌ๊ธฐ์˜ ์ž‘์€ ํ•„ํ„ฐ๋กœ ๋ ˆ์ด์–ด๋ฅผ ์Œ“์•„ ๋ชจ๋ธ์˜ ๊นŠ์ด๋ฅผ ํš๊ธฐ์ ์œผ๋กœ ๋Š˜๋ ธ๋‹ค
    => ๊ทธ ๊ฒฐ๊ณผ ๋‹น์‹œ์˜ SOTA ๋‹ฌ์„ฑ ๋ฐ ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์…‹์— ์ ์šฉ ๊ฐ€๋Šฅํ•œ ์„ฑ๋Šฅ ์ข‹์€ ๋ชจ๋ธ๋กœ ์†๊ผฝํžˆ๊ฒŒ ๋˜์—ˆ๋‹ค

 


II. ConvNet Configurations

2.1 Architecture

  • ํ›ˆ๋ จ์…‹์˜ ๊ฐ ํ”ฝ์…€์—์„œ ํ‰๊ท  RGB๋ฅผ ๋บ€ ์ „์ฒ˜๋ฆฌ๋ฅผ ํ•œ 224x224x3  RGB ์ด๋ฏธ์ง€ ์‚ฌ์šฉ
  • ์ „์ฒ˜๋ฆฌ๋œ ์ด๋ฏธ์ง€๋“ค์€ 3x3 ํฌ๊ธฐ์˜ ํ•„ํ„ฐ๊ฐ€ ์žˆ๋Š” ํ•ฉ์„ฑ๊ณฑ์ธต์„ ์ง€๋‚œ๋‹ค. ์ŠคํŠธ๋ผ์ด๋“œ๋Š” 1, ๋น„์„ ํ˜•์„ฑ์„ ์œ„ํ•ด 1x1 ํ•„ํ„ฐ๋„ ์ ์šฉ
  • ๊ณต๊ฐ„ํ•ด์ƒ๋„, ์ด๋ฏธ์ง€์˜ ๊ณต๊ฐ„์  ์ •๋ณด๋ฅผ ๋ณด์กดํ•˜๊ธฐ ์œ„ํ•ด = ์ด๋ฏธ์ง€ ํฌ๊ธฐ ์œ ์ง€๋ฅผ ์œ„ํ•ด 3x3 ํ•ฉ์„ฑ๊ณฑ์ธต์— ๋Œ€ํ•ด 1ํ”ฝ์…€์˜ ํŒจ๋”ฉ ์ ์šฉ
  • Max Pooling์„ ์‚ฌ์šฉํ•˜์˜€์œผ๋ฉฐ 2x2 ํ•„ํ„ฐ์˜ ์ŠคํŠธ๋ผ์ด๋“œ 2๋ฅผ ์‚ฌ์šฉ
  • ํ•ฉ์„ฑ๊ณฑ์ธต์„ ๊ฑฐ์นœ๋’ค์— ๋…ธ๋“œ 4096๊ฐœ์˜ ์™„์ „์—ฐ๊ฒฐ์ธต 2๊ฐœ๋ฅผ ๊ฑฐ์น˜๊ณ  ๋งˆ์ง€๋ง‰ ์ถœ๋ ฅ์ธต์—๋Š” ํด๋ž˜์Šค ๊ฐœ์ˆ˜์ธ 1000๊ฐœ์— ์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜๋ฅผ ์ ์šฉ
  • ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ ReLU ์‚ฌ์šฉ
  • ํ•ด๋‹น ๋…ผ๋ฌธ์—์„œ๋Š” LRN (Local Response Normalisation)์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜๋‹ค => ์ด์œ ๋Š” ์„ฑ๋Šฅ ํ–ฅ์ƒ๋„ ์—†๊ณ  ์ž์› ์†Œ๋ชจ๋งŒ ๋Š˜์–ด๋‚ฌ๊ธฐ ๋•Œ๋ฌธ

 

2.2 Configurations

 

 

  • VGGNet์„ ๋ ˆ์ด์–ด์™€ LRN, 1x1ํ•„ํ„ฐ ์ ์šฉ์— ๋”ฐ๋ผ 6๊ฐœ์˜ ์ผ€์ด์Šค๋กœ ๋‚˜๋ˆ ์ •๋ฆฌํ•œ ํ‘œ์™€ ๊ตฌ์กฐ๋„์ด๋‹ค.
  • 4๋ฒˆ์˜ MaxPooling์„ ๊ฑฐ์น˜๋ฉฐ ํ•œ๋ฒˆ ๊ฑฐ์น ๋•Œ ๋งˆ๋‹ค ์ฑ„๋„์„ 2๋ฐฐ๋กœ ์ฆ๊ฐ€์‹œ์ผœ 64์—์„œ 512๊นŒ์ง€ ๋Š˜๋ ธ๋‹ค
  • ์ด์ „์˜ AlexNet์—์„œ 11x11 ํฌ๊ธฐ ํ•„ํ„ฐ์— ์ŠคํŠธ๋ผ์ด๋“œ 4 ํ•ฉ์„ฑ๊ณฑ์ธต์„ ์“ฐ๊ฑฐ๋‚˜ 7x7 ํ•„ํ„ฐ์— ์ŠคํŠธ๋ผ์ด๋“œ 2 ํ•ฉ์„ฑ๊ณฑ์ธต์„ ์“ด ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ VGGNet์€ ๋ชจ๋“  ์ธต์—์„œ 3x3 ํ•„ํ„ฐ๋งŒ ์‚ฌ์šฉํ•œ๋‹ค
  • ์™œ ์ž‘์€ ํ•„ํ„ฐ์‚ฌ์ด์ฆˆ๊ฐ€ ๋” ์ข‹์€๊ฐ€??   
      • ๋น„์„ ํ˜•์„ฑ์˜ ์ฆ๊ฐ€. ์ธต์„ ๋” ๊นŠ๊ฒŒ ์Œ“์œผ๋ฉด ๊ทธ๋งŒํผ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ๋” ๋งŽ์ด ๊ฑฐ์น˜๊ฒŒ ๋˜๋ฉด์„œ ๋น„์„ ํ˜•์„ฑ์„ ์ฆ๊ฐ€์‹œํ‚ฌ ์ˆ˜ ์žˆ๊ณ , ๋”ฐ๋ผ์„œ ๋น„์„ ํ˜•์ ์ธ ๋ฌธ์ œ๋“ค์„ ํ•ด๊ฒฐํ•˜๋Š”๋ฐ ๋” ์ข‹์€ ํšจ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค
      • ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐœ์ˆ˜์˜ ๊ฐ์†Œ. ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฐœ์ˆ˜๊ฐ€ ๋” ์ ์œผ๋ฏ€๋กœ ์—ฐ์‚ฐ ํšจ์œจ์ด ์ข‹์•„์ง„๋‹ค
        ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐœ์ˆ˜๋Š” 5x5 ํ•„ํ„ฐ ํ•˜๋‚˜๋ณด๋‹ค 3x3 ํ•„ํ„ฐ ๋‘ ๊ฐœ๊ฐ€ ๋” ์ ๋‹ค. 3x3 ํ•„ํ„ฐ ๋‘ ๊ฐœ๊ฐ€ 5x5 ํ•˜๋‚˜๋ณด๋‹ค ์—ฐ์ƒ๋Ÿ‰, ๊ฐ€์ค‘์น˜ ๊ฐœ์ˆ˜๊ฐ€ ๋” ์ ์œผ๋ฏ€๋กœ ๋” ๊นŠ๊ฒŒ ์Œ“์„ ์ˆ˜ ์žˆ๋‹ค. 
        ์ด๋ ‡๊ฒŒ 7x7 ํ•„ํ„ฐ ๋Œ€์‹  3x3 ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฐœ์ˆ˜๋ฅผ ์ค„์ด๋Š” ๊ฒƒ์€ ์ผ์ข…์˜ ๊ทœ์ œ๋ฅผ ํ•˜๋Š” ๊ฒƒ์œผ๋กœ๋„ ๊ฐ„์ฃผํ•  ์ˆ˜ ์žˆ๋‹ค  ⇒ ’This can be seen as imposing a regularisation on the 7x7 conv.filters' 

 

  • 3x3 ํ•„ํ„ฐ 2๊ฐœ = 5x5 ํ•„ํ„ฐ 1๊ฐœ
  • 3x3 ํ•„ํ„ฐ 3๊ฐœ = 7x7 ํ•„ํ„ฐ 1๊ฐœ
  • 3x3 ํ•„ํ„ฐ๋ฅผ ์—ฌ๋Ÿฌ ๊ฐœ ์‚ฌ์šฉํ•ด์„œ ์–ป๋Š” ์ด์ ์€?
  • ⇒ decision function ์„ฑ๋Šฅ์ด ๋” ํ–ฅ์ƒ๋˜๋ฉฐ, ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐœ์ˆ˜๋ฅผ ์ค„์ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ. 
    ⇒ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์ ๋‹ค = ์—ฐ์‚ฐ๋Ÿ‰์ด ์ค„์–ด๋“ ๋‹ค = ๊ณ„์‚ฐ์ด ๋นจ๋ผ์ง„๋‹ค
    ๋ชจ๋ธ์ด C๊ฐœ์˜ ์ฑ„๋„์„ ๊ฐ€์ง„๋‹ค๋ฉด 3x3 ํ•„ํ„ฐ 3๊ฐœ ์‚ฌ์šฉ์‹œ 3 * ( 3² C² ) = 27C²
    7x7 ํ•„ํ„ฐ 1๊ฐœ ์‚ฌ์šฉ์‹œ 1 * ( 7² C² ) = 49C² ์ด๋‹ค. ์ฆ‰ 3 * 3 ํ•„ํ„ฐ 3๊ฐœ ์‚ฌ์šฉ์‹œ parameter ๊ฐœ์ˆ˜๋ฅผ 81%๊ฐ€๋Ÿ‰ ์ค„์ผ์ˆ˜ ์žˆ๋‹ค.
  • 1x1 ํฌ๊ธฐ ํ•„ํ„ฐ๋„ ์‚ฌ์šฉ. -> ์›๋ฌธ ์ฝ์–ด๋ณด๋ฉด ๋น„์„ ํ˜•์„ฑ์„ ์ถ”๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ–ˆ๋‹ค๊ณ  ์„œ์ˆ ํ•จ. ์ž…์ถœ๋ ฅ ์ฑ„๋„์„ ๋™์ผํ•˜๊ฒŒ ํ•˜๊ณ  1x1 ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•จ์œผ๋กœ์„œ ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ๋Š” ๊ทธ๋Œ€๋กœ ์œ ์ง€ํ•˜๋˜ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ๊ฑฐ์น˜๊ฒŒ ํ•˜์—ฌ ์ถ”๊ฐ€์ ์ธ ๋น„์„ ํ˜•์„ฑ์„ ๊ฐ€์ง€๊ฒŒ ํ•œ๋‹ค
  • ๋ ˆ์ด์–ด๊ฐ€ ์ ์„๋–„, ๋ชจ๋ธ์˜ ๊นŠ์ด๊ฐ€ ์–‡์„๋ฉด(shallow) ๊ทผ์‚ฌ๊ฐ€ ์ž˜ ๋˜์ง€ ์•Š๋Š”๋‹ค. ๋น„์„ ํ˜•์„ฑ ํ•จ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๋ฉด ๋” ๊ณ ์ฐจ์›์ ์ธ ํ•จ์ˆ˜๋ฅผ ์ž˜ ๊ทผ์‚ฌํ•œ๋‹ค. => ๋”ฐ๋ผ์„œ ๋น„์„ ํ˜•์„ฑ์˜ ์ฆ๊ฐ€๋Š” ๋ณต์žกํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ์— ๋„์›€์ด ๋œ๋‹ค. 

 

 

 

 


III. Classification Framework

3.1 Training

ํ›ˆ๋ จ๊ณผ์ •์€ ์ด๋ฏธ์ง€ ํฌ๋กญ(sampling the input crops from multi-scale training image)์„ ์ œ์™ธํ•˜๊ณ ๋Š” ์•Œ๋ ‰์Šค๋„ท๊ณผ ๋™์ผํ•˜๊ฒŒ ์ง„ํ–‰๋œ๋‹ค.

  • Optimization : multinomial logistic regression (mini-batch gradient descent with momentum)
    • batch size = 256 
    • momentum = 0.9 
  • Regularization 
    • weight decay = 0.0005 (L2)
    • drop out = 0.5 (Dense์ธต1,2์—์„œ ์‚ฌ์šฉ)
  • Learning rate = 0.01 (val accuracy ์ฆ๊ฐ€ํ•˜์ง€ ์•Š์„ ์‹œ 0.1๋ฐฐ์”ฉ ๊ฐ์†Œ) 
  • epoch = 74 

 

VGGNet์ด ์•Œ๋ ‰์Šค๋„ท๋ณด๋‹ค ๋” ๊นŠ๊ณ  ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋งŽ์œผ๋ฉด์„œ๋„ ์ˆ˜๋ ดํ•˜๋Š”๋ฐ ๋” ์ ์€ ์—ํญ์ด ๊ฑธ๋ฆฐ ์ด์œ ๋กœ ๋…ผ๋ฌธ์˜ ์ €์ž๋Š” ๋‘๊ฐ€์ง€ ์ถ”์ถ•์„ ์–ธ๊ธ‰ํ•˜์˜€๋‹ค. 

 

1. implicit regularisation imposed by greater depth and smaller conv.

“This can be seen as imposing a regularisation on the 7x7 conv”

 

=> ํ•™์Šต๋˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐœ์ˆ˜๋ฅผ ์ค„์ด๋Š” ๊ฒƒ๋„ ๊ทœ์ œ์˜ ๋ฐฉ๋ฒ•์ด๋‹ค. (=dropout). 7x7 conv ํ•˜๋‚˜ ๋Œ€์‹  3x3 conv 2๊ฐœ ์“ฐ๋Š” ๊ฒƒ์ด ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ๋” ์ ์œผ๋ฏ€๋กœ ์ผ์ข…์˜ ๊ทœ์ œ๋กœ ๋ณผ ์ˆ˜๋„ ์žˆ๋‹ค.

 

2. pre-initialisation of certain layers

  • Weights Initialisation, ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜ ์ดˆ๊ธฐํ™”๋Š” ์ค‘์š”ํ•˜๋‹ค. ๊ฐ€์ค‘์น˜๊ฐ€ ์ž˜๋ชป ์ดˆ๊ธฐํ™”๋  ๊ฒฝ์šฐ ํ•™์Šต์ด ๋ถˆ์•ˆ์ •ํ•ด์งˆ ์ˆ˜ ์žˆ๊ธฐ์— ์–ด๋–ป๊ฒŒ ์ดˆ๊ธฐํ™”์‹œํ‚ค๋Š๋ƒ์— ๋”ฐ๋ผ ์„ฑ๋Šฅ์ด ๋‹ฌ๋ผ์ง„๋‹ค. ํŠนํžˆ ๊นŠ์ด๊ฐ€ ๊นŠ์„์ˆ˜๋ก ์ดˆ๊ธฐ ๊ฐ€์ค‘์น˜ ์„ค์ •์ด ๋งค์šฐ ์ค‘์š”ํ•˜๋‹ค.
  • ์—ฌ๊ธฐ์„  ๋ชจ๋ธ A(๋žœ๋ค ์ดˆ๊ธฐํ™”๋ฅผ ์“ฐ๊ธฐ์— ์ถฉ๋ถ„ํžˆ ์–‡์€ ๋ชจ๋ธ)๋ฅผ ํ•™์Šต์‹œํ‚ค๊ณ  ๋” ๊นŠ์€ ๋ชจ๋ธ ํ•™์Šต์‹œ ๋งจ ์ฒ˜์Œ Convolution Layer 4๊ฐœ, ๋งจ ๋’ค์˜ Fuuly Connected Layer 3๊ฐœ๋ฅผ ๋ชจ๋ธ A๋กœ ํ•™์Šต๋œ ๋ ˆ์ด์–ด๋ฅผ ๊ฐ€์ ธ์™€์„œ ์‚ฌ์šฉํ•œ๋‹ค. ๊ทธ ์‚ฌ์ด์˜ ๋ ˆ์ด์–ด๋“ค์€ ๋žœ๋ค์œผ๋กœ ์ดˆ๊ธฐํ™”ํ•œ๋‹ค

 

3.1.1 Training Image Size

  • S = the smallest side of an isotropically-rescaled training image
    • 224x224 ํฌ๊ธฐ๋กœ ๊ณ ์ •๋œ ์ด๋ฏธ์ง€๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด rescaled๋œ ์ด๋ฏธ์ง€๋ฅผ ๋žœ๋ค์œผ๋กœ ํฌ๋กญํ•˜์˜€๋‹ค
    • ์ถ”๊ฐ€์ ์ธ augmenation์„ ์œ„ํ•ด ํฌ๋กญ๋œ ์ด๋ฏธ์ง€๋ฅผ ๋žœ๋ค์œผ๋กœ ์ˆ˜ํ‰ ๋’ค์ง‘๊ธฐ, ๋žœ๋ค์œผ๋กœ RGB๊ฐ’ ๋ณ€๊ฒฝ์„ ์ ์šฉํ•˜์˜€๋‹ค
    • i. image rescale
      ii. random crop
      iii. random horizontal flip, random RGB colour shift
    • S๋Š” ๊ฐ€๋กœ์„ธ๋กœ๋น„๊ฐ€ ์œ ์ง€๋˜๋ฉฐ ์Šค์ผ€์ผ์ด ์กฐ์ •๋œ ์ด๋ฏธ์ง€์˜ ๊ฐ€์žฅ ์ž‘์€ ๋ฉด.
      isotropically-rescaled training image์—์„œ 224x224 ํฌ๊ธฐ๋กœ ๋žœ๋คํฌ๋กญํ•œ๋‹ค
      S = training scale, S๊ฐ’์„ ์„ค์ •ํ•˜๋Š” ๋‘๊ฐ€์ง€ ๋ฐฉ์‹์ด ์žˆ๋‹ค
      • i. single-scale training : S๋ฅผ 256, 384๋กœ ๊ณ ์ •์‹œ์ผœ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹. ๋จผ์ € S=256์œผ๋กœ ํ•™์Šต์‹œํ‚จ ํ›„, S=256์œผ๋กœ ์‚ฌ์ „ํ•™์Šต๋œ ์›จ์ดํŠธ๋กœ ์ดˆ๊ธฐํ™”ํ•˜์—ฌ S=384๋ฅผ ํ•™์Šต์‹œํ‚จ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ดˆ๊ธฐ ํ•™์Šต๋ฅ ์„ 0.001๋กœ ์ค„์—ฌ์ค€๋‹ค.
      • ii. multi-scale training : S๋ฅผ 256~512 ๋ฒ”์œ„ ๋‚ด ๋žœ๋ค๊ฐ’์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹ ์ด๋ ‡๊ฒŒ ์Šค์ผ€์ผ์„ ๋‹ค์–‘ํ•˜๊ฒŒ ์คŒ์œผ๋กœ์จ ์ด๋ฏธ์ง€ ๋‚ด ์˜ค๋ธŒ์ ํŠธ๊ฐ€ ๋‹ค์–‘ํ•œ ์‚ฌ์ด์ฆˆ๊ฐ€ ๋˜๊ธฐ ๋•Œ๋ฌธ์— ํ›ˆ๋ จ์— ์œ ์ตํ•˜๋‹ค.
        ์ด๋Ÿฐ data augmentation ๋ฐฉ์‹์„ scale jittering๋ผ๊ณ ๋„ ํ•œ๋‹ค = training set augmentation by scale jittering

=> ์†๋„ ๋•Œ๋ฌธ์— multi-scale ๋ชจ๋ธ๋“ค์€ ๊ฐ™์€ ๊ตฌ์กฐ์˜ S=384๋กœ single-scale ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์ดˆ๊ธฐ ๊ฐ€์ค‘์น˜๋กœ ์‚ฌ์šฉํ•ด fine-tune์œผ๋กœ ํ•™์Šต์‹œ์ผฐ๋‹ค.

# ๊ฒฐ๊ณผ๋กœ ํฌ๋กญ,ํ”Œ๋ฆฝ,RGB๋ณ€ํ˜•๋œ 3์žฅ์˜ ์ด๋ฏธ์ง€๋ฅผ ์ถœ๋ ฅ

def single_scale_preprocessing(img, label):
    scale=256
    resized_img = tf.image.resize(img, [scale,scale])
    cropped_img = tf.image.random_crop(resized_img, [224,224,3])
    flipped_img = tf.image.random_flip_left_right(cropped_img,5)
    shift_img = tf.image.random_hue(cropped_img, 0.5)

    aug_img = [cropped_img, flipped_img, shift_img]
    labels = [label, label, label]
    aug_img = np.array(aug_img)/255
    labels = np.array(labels)

    return aug_img, labels

 

 

 

3.2 Testing 

  • ํ›ˆ๋ จ๋ฟ ์•„๋‹ˆ๋ผ ํ…Œ์ŠคํŠธ ์‹œ์—๋„ rescaling์„ ํ•œ๋‹ค. ํ›ˆ๋ จ์‹œ rescaling์˜ ๊ธฐ์ค€๊ฐ’์„ S๋ผ ํ–ˆ๋‹ค๋ฉด ํ…Œ์ŠคํŠธ์‹œ์—” Q๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. S์™€ Q๋Š” ๊ฐ™์€ ๊ฐœ๋…์ด๊ณ  ํ›ˆ๋ จ์ด๋ƒ ํ…Œ์ŠคํŠธ๋ƒ๋งŒ ๊ตฌ๋ถ„ํ•˜๋ฉด ๋œ๋‹ค.
  • Single scale์˜ ๊ฒฝ์šฐ ํ•˜๋‚˜์˜ ์‚ฌ์ด์ฆˆ๋กœ ๊ณ ์ •ํ•˜์—ฌ ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€๋“ค์„ rescaleํ•จ. S์™€ Q๊ฐ€ ๊ผญ ๊ฐ™์„ ํ•„์š”๋Š” x. ๊ฐ๊ฐ S๋งˆ๋‹ค ๋‹ค๋ฅธ Q๋ฅผ ์ ์šฉ์‹œ ํ–ฅ์ƒ๋œ ์„ฑ๋Šฅ์„ ์–ป์—ˆ๋‹ค๊ณ  ํ•œ๋‹ค.
  • ๊ณ ์ •๋œ ํฌ๊ธฐ์˜ class score์— ๋Œ€ํ•œ ๋ฒกํ„ฐ๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ๊ฒฐ๊ณผ๋ฌผ์ธ class score map์€ spatially averaged(sum-pooled)๋˜์—ˆ๋‹ค + ์ขŒ์šฐ๋ฐ˜์ „์œผ๋กœ ํ…Œ์ŠคํŠธ์…‹ ์ด๋ฏธ์ง€ ์ฆ๊ฐ•๋„ ํ•จ
  • ํ•ฉ์„ฑ๊ณฑ์ธต์œผ๋กœ๋งŒ ์ด๋ฃจ์–ด์ง„ ๋ชจ๋ธ์ด๊ธฐ๋•Œ๋ฌธ์—(=fully-convolutional network) ํ…Œ์ŠคํŠธ์‹œ multiple crops ํ•  ํ•„์š”๊ฐ€ ์—†๋‹ค. = ๊ฐ ํฌ๋กญ์„ ์œ„ํ•ด ๋„คํŠธ์›Œํฌ ์žฌ์—ฐ์‚ฐ์„ ํ•„์š”ํ•˜๊ธฐ์— ๋œ ํšจ์œจ์ ์ด๊ธฐ ๋•Œ๋ฌธ
  • ๋™์‹œ์— large set of crops๋ฅผ ์‚ฌ์šฉํ•˜๋Š”๊ฒƒ์€ ์ •ํ™•๋„ ํ–ฅ์ƒ์œผ๋กœ ์ด์–ด์งˆ ์ˆ˜๋„ ์žˆ๋‹ค
  • dense evaluation, multi-crop evaluation, ๋‘˜์„ ์„ž์–ด์„œ ๊ฒ€์ฆํ•˜๋Š” ๋“ฑ ์—ฌ๋Ÿฌ ๊ฒ€์ฆ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์„œ์ˆ ํ•˜๊ณ  ์žˆ์Œ

 

3.3 Implementation Details 

  • Multi-GPU training. ๋ฐฐ์น˜๋‹จ์œ„๋กœ GPU์— ๋“ค์–ด๊ฐ€์„œ ๋ณ‘๋ ฌ์ ์œผ๋กœ ์ฒ˜๋ฆฌ๋˜๊ณ  GPU ๋ฐฐ์น˜ ๊ธฐ์šธ๊ธฐ ๊ณ„์‚ฐํ›„์— ํ‰๊ท ๋‚ด์–ด ์ „์ฒด ๋ฐฐ์น˜์— ๋Œ€ํ•œ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ตฌํ•œ๋‹ค
  • ๊ธฐ์šธ๊ธฐ ๊ณ„์‚ฐ์€ GPU๋“ค์— ๊ฑธ์ณ ๋™์‹œ์— ์ผ์–ด๋‚˜๋ฏ€๋กœ ๋‹จ์ผ GPU๋ฅผ ํ›ˆ๋ จ์‹œํ‚ฌ ๋•Œ์™€ ๊ฐ™์€ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜จ๋‹ค
    => ์—ฌ๋Ÿฌ๊ฐœ์˜ GPU๋ฅผ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ๊ณ„์‚ฐ์— ๊ฑธ๋ฆฌ๋Š” ์‹œ๊ฐ„์„ ๋‹จ์ถ•์‹œํ‚ด. ๋‹จ์ผ GPU ๊ฑธ๋ฆฌ๋Š” ์‹œ๊ฐ„์—์„œ 3.75๋ฐฐ ๋” ๋นจ๋ผ์ง

 


 

 

IV. Classification Experiments

  • Dataset : ILSVRC-2012 dataset. 1000๊ฐœ์˜ ํด๋ž˜์Šค, 1.3M ํ›ˆ๋ จ์…‹, 50K ๊ฒ€์ฆ์…‹, 100K ๋ผ๋ฒจ ์—†๋Š” ํ…Œ์ŠคํŠธ์…‹
  • ํ‰๊ฐ€ ์„ฑ๋Šฅ ์ง€ํ‘œ๋Š” top-1, top-5 error

 

4.1 Single Scale Evaluation

  • ํ…Œ์ŠคํŠธ์…‹์„ ๋‹จ์ผ ์ด๋ฏธ์ง€ ํฌ๊ธฐ๋กœ ๊ฒ€์ฆํ•จ.
  • ์œ„์—์„œ ์–ธ๊ธ‰ํ•œ ๊ฒƒ์ฒ˜๋Ÿผ LRN์€ ํฐ ํšจ๊ณผ๊ฐ€ ์—†๊ธฐ์— B-E, ๊นŠ์€ ๋ชจ๋ธ์—์„  ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š”๋‹ค
  • ๋ชจ๋ธ์˜ ๊นŠ์ด๊ฐ€ ์ฆ๊ฐ€ํ• ์ˆ˜๋ก ์—๋Ÿฌ๊ฐ€ ๊ฐ์†Œํ•˜๋Š” ๊ฒƒ์„ ํ™•์ธํ•จ. 11์ธต์ธ A๋ชจ๋ธ๋ถ€ํ„ฐ 19์ธต์ธ E๋ชจ๋ธ๊นŒ์ง€.
  • C์™€ D๋ชจ๋ธ์˜ ์ฐจ์ด๋Š” ์ด๋ ‡๊ฒŒ ์ค‘๊ฐ„ ํ•ฉ์„ฑ๊ณฑ์ธต์˜ ํ•„ํ„ฐ ์‚ฌ์ด์ฆˆ๊ฐ€ ๋‹ค๋ฆ„. ํ•˜์ง€๋งŒ ๊ฐ™์€ ๊นŠ์ด์—๋„ 3x3 ํ•„ํ„ฐ๋ฅผ ์“ด D๋ชจ๋ธ์ด ์„ฑ๋Šฅ์ด ๋” ์ข‹์•˜๋‹ค
    • ⇒ ๋ชจ๋ธ B์™€ ๋ชจ๋ธ C๋ฅผ ๋น„๊ตํ–ˆ์„๋•Œ 1x1 ํ•ฉ์„ฑ๊ณฑ์ธต์„ ํ†ตํ•ด ๋น„์„ ํ˜•์„ฑ์„ ์ถ”๊ฐ€ํ•ด์ฃผ๋Š” ๊ฒƒ์€ ํšจ๊ณผ๊ฐ€ ์žˆ์ง€๋งŒ / ํ•ฉ์„ฑ๊ณฑ์ธต์„ ํ†ตํ•ด ๊ณต๊ฐ„์  ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๋Š” ๊ฒƒ ๋˜ํ•œ ์ค‘์š”ํ•˜๋‹ค. ๊ทธ๋Ÿฐ๋ฉด์—์„œ D๊ฐ€ C๋ณด๋‹ค ๋” ์ข‹์Œ
    • = 1x1 ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋น„์„ ํ˜•์„ฑ์„ ๋” ์ž˜ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์ง€๋งŒ 3x3 ํ•„ํ„ฐ๊ฐ€ ๊ณต๊ฐ„-์œ„์น˜ ์ •๋ณด์˜ ํŠน์ง•์„ ๋” ์ž˜ ์ถ”์ถœํ•˜๊ธฐ ๋•Œ๋ฌธ์— 3x3 ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ข‹๋‹ค
  • B์˜ ํ˜•ํƒœ์—์„œ ํ•„ํ„ฐ์‚ฌ์ด์ฆˆ๋งŒ 5x5๋กœ ๋ฐ”๊ฟ”์„œ ๋งŒ๋“  shallow net๊ณผ B๋ฅผ ๋น„๊ต, top-1 error์—์„œ shallow net์ด B๋ณด๋‹ค 7% ๋” ๋†’์•˜๋‹ค.
    • ⇒ ๋‘˜์˜ ์„ฑ๋Šฅ ๋น„๊ต๋ฅผ ํ†ตํ•ด ๊นŠ์€ ๋ชจ๋ธ์—์„œ ํฐ ํ•„ํ„ฐ๋ณด๋‹จ ์ž‘์€ ํ•„ํ„ฐ๊ฐ€ ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ƒ„์„ ํ™•์ธํ•จ
  • ํ›ˆ๋ จ์‹œ scale jittering(256~512 ์‚ฌ์ด ๋žœ๋ค ์Šค์ผ€์ผ ์ง€์ •)์€ ๊ณ ์ •๋œ ์Šค์ผ€์ผ(S=256, S=384)๋ณด๋‹ค ๋” ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ๋ƒˆ๋‹ค
    • ⇒ ์ผ์ข…์˜ ๋…ธ์ด์ฆˆ ์ถ”๊ฐ€๋กœ ๋ชจ๋ธ์„ ๊ฐ•๊ฑดํ•˜๊ฒŒ ๋งŒ๋“ค์–ด ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๊ณ  ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚จ ๊ฒƒ์œผ๋กœ ๋ณด์ž„

 

4.2 Multi-Scale Evaluation

  • ํ…Œ์ŠคํŠธ์…‹์œผ๋กœ ๋‹ค์–‘ํ•œ ์ด๋ฏธ์ง€ ํฌ๊ธฐ๋ฅผ ์ ์šฉํ•ด ๊ฒ€์ฆ
  • ํ•™์Šต์‹œ scale jittering์ด ํšจ๊ณผ๊ฐ€ ์žˆ์—ˆ์Œ์„ ํ™•์ธ, ํ…Œ์ŠคํŠธ์—๋„ ํšจ๊ณผ๊ฐ€ ์žˆ์„์ง€ ํ™•์ธํ•ด๋ณด๋ คํ•จ
  • ํ›ˆ๋ จ์…‹๊ณผ ํ…Œ์ŠคํŠธ์…‹์˜ ํฐ ์Šค์ผ€์ผ ์ฐจ์ด๋Š” ์„ฑ๋Šฅ์„ ๋–จ์–ด๋œจ๋ฆด ์ˆ˜ ์žˆ๋‹ค
  • ๊ณ ์ •๋œ S๋กœ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์€ ํ…Œ์ŠคํŠธ์…‹ ์Šค์ผ€์ผ์„ 3๊ฐ€์ง€๋กœ ์ง€์ •ํ•œ๋‹ค, ( S-32, S, S+32 )
  • ํ›ˆ๋ จ์‹œ S๋ฅผ ๋ฒ”์œ„๋กœ ์ฃผ์–ด ํ›ˆ๋ จํ•œ ๋ชจ๋ธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ง€์ •ํ•œ๋‹ค. ( Smin, 0.5*(Smin + Smax), Smax )

 

 

4.3 Multi-Crop Evaluation

Dense, Multi-crop, Multi-crop & Dense 3๊ฐ€์ง€ ๊ฒฝ์šฐ๋กœ ๋‚˜๋ˆ„์–ด ๊ฒ€์ฆ, ์„ฑ๋Šฅ ๋น„๊ต

 

 

 

4.4 ConvNet Fusion

  • ์—ฌ๋Ÿฌ๊ฐœ์˜ ๋ชจ๋ธ์˜ ํ™•๋ฅ ๊ฐ’๋“ค์„ ํ‰๊ท ๋‚ด์–ด ์•™์ƒ๋ธ”.
  • ๋ชจ๋ธ 7๊ฐœ๋ฅผ ์•™์ƒ๋ธ”ํ•˜๊ฑฐ๋‚˜ multi-scale ๋ชจ๋ธ์ค‘ ์„ฑ๋Šฅ์ด ๊ฐ€์žฅ ์ข‹์€ 2๊ฐœ๋ฅผ ์•™์ƒ๋ธ”ํ•˜๋Š” ๋“ฑ ์—ฌ๋Ÿฌ ๋ชจ๋ธ ์กฐํ•ฉ์„ ํ†ตํ•ด ์•™์ƒ๋ธ”ํ•จ

 


V. Conlusion

  • ๋ชจ๋ธ์˜ ๋ ˆ์ด์–ด๊ฐ€ ๊นŠ์–ด์งˆ์ˆ˜๋ก ๋ฐœ์ƒํ•˜๋Š” ๋ฌธ์ œ, ์˜ค๋ฒ„ํ•์— ๋Œ€ํ•ด ๊ฐ„๋‹จํ•˜๋ฉด์„œ๋„ ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์„ฑ๋Šฅ์„ ํš๊ธฐ์ ์œผ๋กœ ์˜ฌ๋ฆฐ VGGNet.
  • 3x3 ํ•„ํ„ฐ์˜ Conv, ๋” ๊นŠ์€ ๋ ˆ์ด์–ด, ์ž…๋ ฅ ์ด๋ฏธ์ง€ ์‚ฌ์ด์ฆˆ์— ๋Œ€ํ•œ ๋‹ค์–‘ํ•œ ์‹œ๋„, ์•™์ƒ๋ธ” ๋“ฑ์„ ํ†ตํ•œ sota ๋‹ฌ์„ฑ

 

 

Review

  • ์•Œ๋ ‰์Šค๋„ท๊ณผ ํ•จ๊ป˜ ๋”ฅ๋Ÿฌ๋‹์˜ ์ดˆ์ฐฝ๊ธฐ ๋ชจ๋ธ๋กœ, ์ธ๊ณต์ง€๋Šฅ์„ ๊ณต๋ถ€ํ•œ๋‹ค๋ฉด ๋ˆ„๊ตฌ๋‚˜ ํ•œ๋ฒˆ์ฏค์€ ๋“ค์–ด๋ณด๊ณ  ์•Œ๋งŒํ•œ ๋ชจ๋ธ์ด๋‹ค. 
  • ๋…ผ๋ฌธ์—์„œ ์ œ์‹œํ•œ ๋ฐฉ๋ฒ•๋“ค์„ ์™œ ์‚ฌ์šฉํ–ˆ๋Š”์ง€์— ๋Œ€ํ•ด ์‚ดํŽด๋ณด๋ฉด ์ข‹์€ ์ธ์‚ฌ์ดํŠธ๋“ค์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. 
  • ์˜ค๋ž˜๋˜๊ณ  ๊ฐ„๋‹จํ•œ ๋ชจ๋ธ์ด์ง€๋งŒ ๋”ฅ๋Ÿฌ๋‹์„ ๊ณต๋ถ€ํ•œ๋‹ค๋ฉด ํ•œ๋ฒˆ์ฏค์€ ๊ผญ ๊ณต๋ถ€ํ•˜๊ณ  ๊ตฌํ˜„ํ•ด๋ณด๋Š” ๊ฒƒ์ด ๋„์›€์ด ๋  ๊ฒƒ์ด๋‹ค.