Very Deep Convolutional Networks for Large-Scale Image Recognition
https://arxiv.org/abs/1409.1556
I. Introduction
- ํด๋น ๋
ผ๋ฌธ์ ๋ชจ๋ธ์ ๋ ์ด์ด๋ฅผ ๋ ๊น๊ฒ ๋ง๋๋ ๊ฒ์ ์ค์ ์ ๋์๋ค. ์ด๋ฅผ ์ํด ๋ค๋ฅธ ํ๋ผ๋ฏธํฐ๋ค์ ๊ณ ์ ํ๊ณ 3x3 ํฌ๊ธฐ์ ์์ ํํฐ๋ก ๋ ์ด์ด๋ฅผ ์์ ๋ชจ๋ธ์ ๊น์ด๋ฅผ ํ๊ธฐ์ ์ผ๋ก ๋๋ ธ๋ค
=> ๊ทธ ๊ฒฐ๊ณผ ๋น์์ SOTA ๋ฌ์ฑ ๋ฐ ๋ค์ํ ๋ฐ์ดํฐ์ ์ ์ ์ฉ ๊ฐ๋ฅํ ์ฑ๋ฅ ์ข์ ๋ชจ๋ธ๋ก ์๊ผฝํ๊ฒ ๋์๋ค
II. ConvNet Configurations
2.1 Architecture
- ํ๋ จ์ ์ ๊ฐ ํฝ์ ์์ ํ๊ท RGB๋ฅผ ๋บ ์ ์ฒ๋ฆฌ๋ฅผ ํ 224x224x3 RGB ์ด๋ฏธ์ง ์ฌ์ฉ
- ์ ์ฒ๋ฆฌ๋ ์ด๋ฏธ์ง๋ค์ 3x3 ํฌ๊ธฐ์ ํํฐ๊ฐ ์๋ ํฉ์ฑ๊ณฑ์ธต์ ์ง๋๋ค. ์คํธ๋ผ์ด๋๋ 1, ๋น์ ํ์ฑ์ ์ํด 1x1 ํํฐ๋ ์ ์ฉ
- ๊ณต๊ฐํด์๋, ์ด๋ฏธ์ง์ ๊ณต๊ฐ์ ์ ๋ณด๋ฅผ ๋ณด์กดํ๊ธฐ ์ํด = ์ด๋ฏธ์ง ํฌ๊ธฐ ์ ์ง๋ฅผ ์ํด 3x3 ํฉ์ฑ๊ณฑ์ธต์ ๋ํด 1ํฝ์ ์ ํจ๋ฉ ์ ์ฉ
- Max Pooling์ ์ฌ์ฉํ์์ผ๋ฉฐ 2x2 ํํฐ์ ์คํธ๋ผ์ด๋ 2๋ฅผ ์ฌ์ฉ
- ํฉ์ฑ๊ณฑ์ธต์ ๊ฑฐ์น๋ค์ ๋ ธ๋ 4096๊ฐ์ ์์ ์ฐ๊ฒฐ์ธต 2๊ฐ๋ฅผ ๊ฑฐ์น๊ณ ๋ง์ง๋ง ์ถ๋ ฅ์ธต์๋ ํด๋์ค ๊ฐ์์ธ 1000๊ฐ์ ์ํํธ๋งฅ์ค ํจ์๋ฅผ ์ ์ฉ
- ํ์ฑํ ํจ์๋ก ReLU ์ฌ์ฉ
- ํด๋น ๋ ผ๋ฌธ์์๋ LRN (Local Response Normalisation)์ ์ฌ์ฉํ์ง ์์๋ค => ์ด์ ๋ ์ฑ๋ฅ ํฅ์๋ ์๊ณ ์์ ์๋ชจ๋ง ๋์ด๋ฌ๊ธฐ ๋๋ฌธ
2.2 Configurations
- VGGNet์ ๋ ์ด์ด์ LRN, 1x1ํํฐ ์ ์ฉ์ ๋ฐ๋ผ 6๊ฐ์ ์ผ์ด์ค๋ก ๋๋ ์ ๋ฆฌํ ํ์ ๊ตฌ์กฐ๋์ด๋ค.
- 4๋ฒ์ MaxPooling์ ๊ฑฐ์น๋ฉฐ ํ๋ฒ ๊ฑฐ์น ๋ ๋ง๋ค ์ฑ๋์ 2๋ฐฐ๋ก ์ฆ๊ฐ์์ผ 64์์ 512๊น์ง ๋๋ ธ๋ค
- ์ด์ ์ AlexNet์์ 11x11 ํฌ๊ธฐ ํํฐ์ ์คํธ๋ผ์ด๋ 4 ํฉ์ฑ๊ณฑ์ธต์ ์ฐ๊ฑฐ๋ 7x7 ํํฐ์ ์คํธ๋ผ์ด๋ 2 ํฉ์ฑ๊ณฑ์ธต์ ์ด ๊ฒ๊ณผ ๋ฌ๋ฆฌ VGGNet์ ๋ชจ๋ ์ธต์์ 3x3 ํํฐ๋ง ์ฌ์ฉํ๋ค
- ์ ์์ ํํฐ์ฌ์ด์ฆ๊ฐ ๋ ์ข์๊ฐ??
-
- ๋น์ ํ์ฑ์ ์ฆ๊ฐ. ์ธต์ ๋ ๊น๊ฒ ์์ผ๋ฉด ๊ทธ๋งํผ ํ์ฑํ ํจ์๋ฅผ ๋ ๋ง์ด ๊ฑฐ์น๊ฒ ๋๋ฉด์ ๋น์ ํ์ฑ์ ์ฆ๊ฐ์ํฌ ์ ์๊ณ , ๋ฐ๋ผ์ ๋น์ ํ์ ์ธ ๋ฌธ์ ๋ค์ ํด๊ฒฐํ๋๋ฐ ๋ ์ข์ ํจ๊ณผ๋ฅผ ์ป์ ์ ์๋ค
- ํ๋ผ๋ฏธํฐ ๊ฐ์์ ๊ฐ์. ํ๋ผ๋ฏธํฐ์ ๊ฐ์๊ฐ ๋ ์ ์ผ๋ฏ๋ก ์ฐ์ฐ ํจ์จ์ด ์ข์์ง๋ค
ํ๋ผ๋ฏธํฐ ๊ฐ์๋ 5x5 ํํฐ ํ๋๋ณด๋ค 3x3 ํํฐ ๋ ๊ฐ๊ฐ ๋ ์ ๋ค. 3x3 ํํฐ ๋ ๊ฐ๊ฐ 5x5 ํ๋๋ณด๋ค ์ฐ์๋, ๊ฐ์ค์น ๊ฐ์๊ฐ ๋ ์ ์ผ๋ฏ๋ก ๋ ๊น๊ฒ ์์ ์ ์๋ค.
์ด๋ ๊ฒ 7x7 ํํฐ ๋์ 3x3 ํํฐ๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ ํ๋ผ๋ฏธํฐ์ ๊ฐ์๋ฅผ ์ค์ด๋ ๊ฒ์ ์ผ์ข ์ ๊ท์ ๋ฅผ ํ๋ ๊ฒ์ผ๋ก๋ ๊ฐ์ฃผํ ์ ์๋ค ⇒ ’This can be seen as imposing a regularisation on the 7x7 conv.filters'
-
- 3x3 ํํฐ 2๊ฐ = 5x5 ํํฐ 1๊ฐ
- 3x3 ํํฐ 3๊ฐ = 7x7 ํํฐ 1๊ฐ
- 3x3 ํํฐ๋ฅผ ์ฌ๋ฌ ๊ฐ ์ฌ์ฉํด์ ์ป๋ ์ด์ ์?
- ⇒ decision function ์ฑ๋ฅ์ด ๋ ํฅ์๋๋ฉฐ, ํ๋ผ๋ฏธํฐ ๊ฐ์๋ฅผ ์ค์ผ ์ ์๋ค๋ ๊ฒ.
⇒ ํ๋ผ๋ฏธํฐ๊ฐ ์ ๋ค = ์ฐ์ฐ๋์ด ์ค์ด๋ ๋ค = ๊ณ์ฐ์ด ๋นจ๋ผ์ง๋ค
๋ชจ๋ธ์ด C๊ฐ์ ์ฑ๋์ ๊ฐ์ง๋ค๋ฉด 3x3 ํํฐ 3๊ฐ ์ฌ์ฉ์ 3 * ( 3² C² ) = 27C²
7x7 ํํฐ 1๊ฐ ์ฌ์ฉ์ 1 * ( 7² C² ) = 49C² ์ด๋ค. ์ฆ 3 * 3 ํํฐ 3๊ฐ ์ฌ์ฉ์ parameter ๊ฐ์๋ฅผ 81%๊ฐ๋ ์ค์ผ์ ์๋ค. - 1x1 ํฌ๊ธฐ ํํฐ๋ ์ฌ์ฉ. -> ์๋ฌธ ์ฝ์ด๋ณด๋ฉด ๋น์ ํ์ฑ์ ์ถ๊ฐํ๊ธฐ ์ํด ์ฌ์ฉํ๋ค๊ณ ์์ ํจ. ์ ์ถ๋ ฅ ์ฑ๋์ ๋์ผํ๊ฒ ํ๊ณ 1x1 ํํฐ๋ฅผ ์ฌ์ฉํจ์ผ๋ก์ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๋ ๊ทธ๋๋ก ์ ์งํ๋ ํ์ฑํ ํจ์๋ฅผ ๊ฑฐ์น๊ฒ ํ์ฌ ์ถ๊ฐ์ ์ธ ๋น์ ํ์ฑ์ ๊ฐ์ง๊ฒ ํ๋ค
- ๋ ์ด์ด๊ฐ ์ ์๋, ๋ชจ๋ธ์ ๊น์ด๊ฐ ์์๋ฉด(shallow) ๊ทผ์ฌ๊ฐ ์ ๋์ง ์๋๋ค. ๋น์ ํ์ฑ ํจ์๋ฅผ ๋๋ฆฌ๋ฉด ๋ ๊ณ ์ฐจ์์ ์ธ ํจ์๋ฅผ ์ ๊ทผ์ฌํ๋ค. => ๋ฐ๋ผ์ ๋น์ ํ์ฑ์ ์ฆ๊ฐ๋ ๋ณต์กํ ๋ฌธ์ ํด๊ฒฐ์ ๋์์ด ๋๋ค.
III. Classification Framework
3.1 Training
ํ๋ จ๊ณผ์ ์ ์ด๋ฏธ์ง ํฌ๋กญ(sampling the input crops from multi-scale training image)์ ์ ์ธํ๊ณ ๋ ์๋ ์ค๋ท๊ณผ ๋์ผํ๊ฒ ์งํ๋๋ค.
- Optimization : multinomial logistic regression (mini-batch gradient descent with momentum)
- batch size = 256
- momentum = 0.9
- Regularization
- weight decay = 0.0005 (L2)
- drop out = 0.5 (Dense์ธต1,2์์ ์ฌ์ฉ)
- Learning rate = 0.01 (val accuracy ์ฆ๊ฐํ์ง ์์ ์ 0.1๋ฐฐ์ฉ ๊ฐ์)
- epoch = 74
VGGNet์ด ์๋ ์ค๋ท๋ณด๋ค ๋ ๊น๊ณ ํ๋ผ๋ฏธํฐ๊ฐ ๋ง์ผ๋ฉด์๋ ์๋ ดํ๋๋ฐ ๋ ์ ์ ์ํญ์ด ๊ฑธ๋ฆฐ ์ด์ ๋ก ๋ ผ๋ฌธ์ ์ ์๋ ๋๊ฐ์ง ์ถ์ถ์ ์ธ๊ธํ์๋ค.
1. implicit regularisation imposed by greater depth and smaller conv.
“This can be seen as imposing a regularisation on the 7x7 conv”
=> ํ์ต๋๋ ํ๋ผ๋ฏธํฐ ๊ฐ์๋ฅผ ์ค์ด๋ ๊ฒ๋ ๊ท์ ์ ๋ฐฉ๋ฒ์ด๋ค. (=dropout). 7x7 conv ํ๋ ๋์ 3x3 conv 2๊ฐ ์ฐ๋ ๊ฒ์ด ํ๋ผ๋ฏธํฐ ์๊ฐ ๋ ์ ์ผ๋ฏ๋ก ์ผ์ข ์ ๊ท์ ๋ก ๋ณผ ์๋ ์๋ค.
2. pre-initialisation of certain layers
- Weights Initialisation, ๋ชจ๋ธ์ ๊ฐ์ค์น ์ด๊ธฐํ๋ ์ค์ํ๋ค. ๊ฐ์ค์น๊ฐ ์๋ชป ์ด๊ธฐํ๋ ๊ฒฝ์ฐ ํ์ต์ด ๋ถ์์ ํด์ง ์ ์๊ธฐ์ ์ด๋ป๊ฒ ์ด๊ธฐํ์ํค๋๋์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๋ฌ๋ผ์ง๋ค. ํนํ ๊น์ด๊ฐ ๊น์์๋ก ์ด๊ธฐ ๊ฐ์ค์น ์ค์ ์ด ๋งค์ฐ ์ค์ํ๋ค.
- ์ฌ๊ธฐ์ ๋ชจ๋ธ A(๋๋ค ์ด๊ธฐํ๋ฅผ ์ฐ๊ธฐ์ ์ถฉ๋ถํ ์์ ๋ชจ๋ธ)๋ฅผ ํ์ต์ํค๊ณ ๋ ๊น์ ๋ชจ๋ธ ํ์ต์ ๋งจ ์ฒ์ Convolution Layer 4๊ฐ, ๋งจ ๋ค์ Fuuly Connected Layer 3๊ฐ๋ฅผ ๋ชจ๋ธ A๋ก ํ์ต๋ ๋ ์ด์ด๋ฅผ ๊ฐ์ ธ์์ ์ฌ์ฉํ๋ค. ๊ทธ ์ฌ์ด์ ๋ ์ด์ด๋ค์ ๋๋ค์ผ๋ก ์ด๊ธฐํํ๋ค
3.1.1 Training Image Size
- S = the smallest side of an isotropically-rescaled training image
- 224x224 ํฌ๊ธฐ๋ก ๊ณ ์ ๋ ์ด๋ฏธ์ง๋ฅผ ์ป๊ธฐ ์ํด rescaled๋ ์ด๋ฏธ์ง๋ฅผ ๋๋ค์ผ๋ก ํฌ๋กญํ์๋ค
- ์ถ๊ฐ์ ์ธ augmenation์ ์ํด ํฌ๋กญ๋ ์ด๋ฏธ์ง๋ฅผ ๋๋ค์ผ๋ก ์ํ ๋ค์ง๊ธฐ, ๋๋ค์ผ๋ก RGB๊ฐ ๋ณ๊ฒฝ์ ์ ์ฉํ์๋ค
- i. image rescale
ii. random crop
iii. random horizontal flip, random RGB colour shift - S๋ ๊ฐ๋ก์ธ๋ก๋น๊ฐ ์ ์ง๋๋ฉฐ ์ค์ผ์ผ์ด ์กฐ์ ๋ ์ด๋ฏธ์ง์ ๊ฐ์ฅ ์์ ๋ฉด.
isotropically-rescaled training image์์ 224x224 ํฌ๊ธฐ๋ก ๋๋คํฌ๋กญํ๋ค
S = training scale, S๊ฐ์ ์ค์ ํ๋ ๋๊ฐ์ง ๋ฐฉ์์ด ์๋ค
- i. single-scale training : S๋ฅผ 256, 384๋ก ๊ณ ์ ์์ผ ์ฌ์ฉํ๋ ๋ฐฉ์. ๋จผ์ S=256์ผ๋ก ํ์ต์ํจ ํ, S=256์ผ๋ก ์ฌ์ ํ์ต๋ ์จ์ดํธ๋ก ์ด๊ธฐํํ์ฌ S=384๋ฅผ ํ์ต์ํจ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๊ธฐ ํ์ต๋ฅ ์ 0.001๋ก ์ค์ฌ์ค๋ค.
- ii. multi-scale training : S๋ฅผ 256~512 ๋ฒ์ ๋ด ๋๋ค๊ฐ์ผ๋ก ์ฌ์ฉํ๋ ๋ฐฉ์ ์ด๋ ๊ฒ ์ค์ผ์ผ์ ๋ค์ํ๊ฒ ์ค์ผ๋ก์จ ์ด๋ฏธ์ง ๋ด ์ค๋ธ์ ํธ๊ฐ ๋ค์ํ ์ฌ์ด์ฆ๊ฐ ๋๊ธฐ ๋๋ฌธ์ ํ๋ จ์ ์ ์ตํ๋ค.
์ด๋ฐ data augmentation ๋ฐฉ์์ scale jittering๋ผ๊ณ ๋ ํ๋ค = training set augmentation by scale jittering
=> ์๋ ๋๋ฌธ์ multi-scale ๋ชจ๋ธ๋ค์ ๊ฐ์ ๊ตฌ์กฐ์ S=384๋ก single-scale ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ์ด๊ธฐ ๊ฐ์ค์น๋ก ์ฌ์ฉํด fine-tune์ผ๋ก ํ์ต์์ผฐ๋ค.
# ๊ฒฐ๊ณผ๋ก ํฌ๋กญ,ํ๋ฆฝ,RGB๋ณํ๋ 3์ฅ์ ์ด๋ฏธ์ง๋ฅผ ์ถ๋ ฅ
def single_scale_preprocessing(img, label):
scale=256
resized_img = tf.image.resize(img, [scale,scale])
cropped_img = tf.image.random_crop(resized_img, [224,224,3])
flipped_img = tf.image.random_flip_left_right(cropped_img,5)
shift_img = tf.image.random_hue(cropped_img, 0.5)
aug_img = [cropped_img, flipped_img, shift_img]
labels = [label, label, label]
aug_img = np.array(aug_img)/255
labels = np.array(labels)
return aug_img, labels
3.2 Testing
- ํ๋ จ๋ฟ ์๋๋ผ ํ ์คํธ ์์๋ rescaling์ ํ๋ค. ํ๋ จ์ rescaling์ ๊ธฐ์ค๊ฐ์ S๋ผ ํ๋ค๋ฉด ํ ์คํธ์์ Q๋ผ๊ณ ๋ถ๋ฅธ๋ค. S์ Q๋ ๊ฐ์ ๊ฐ๋ ์ด๊ณ ํ๋ จ์ด๋ ํ ์คํธ๋๋ง ๊ตฌ๋ถํ๋ฉด ๋๋ค.
- Single scale์ ๊ฒฝ์ฐ ํ๋์ ์ฌ์ด์ฆ๋ก ๊ณ ์ ํ์ฌ ํ ์คํธ ์ด๋ฏธ์ง๋ค์ rescaleํจ. S์ Q๊ฐ ๊ผญ ๊ฐ์ ํ์๋ x. ๊ฐ๊ฐ S๋ง๋ค ๋ค๋ฅธ Q๋ฅผ ์ ์ฉ์ ํฅ์๋ ์ฑ๋ฅ์ ์ป์๋ค๊ณ ํ๋ค.
- ๊ณ ์ ๋ ํฌ๊ธฐ์ class score์ ๋ํ ๋ฒกํฐ๋ฅผ ์ป๊ธฐ ์ํด ๊ฒฐ๊ณผ๋ฌผ์ธ class score map์ spatially averaged(sum-pooled)๋์๋ค + ์ข์ฐ๋ฐ์ ์ผ๋ก ํ ์คํธ์ ์ด๋ฏธ์ง ์ฆ๊ฐ๋ ํจ
- ํฉ์ฑ๊ณฑ์ธต์ผ๋ก๋ง ์ด๋ฃจ์ด์ง ๋ชจ๋ธ์ด๊ธฐ๋๋ฌธ์(=fully-convolutional network) ํ ์คํธ์ multiple crops ํ ํ์๊ฐ ์๋ค. = ๊ฐ ํฌ๋กญ์ ์ํด ๋คํธ์ํฌ ์ฌ์ฐ์ฐ์ ํ์ํ๊ธฐ์ ๋ ํจ์จ์ ์ด๊ธฐ ๋๋ฌธ
- ๋์์ large set of crops๋ฅผ ์ฌ์ฉํ๋๊ฒ์ ์ ํ๋ ํฅ์์ผ๋ก ์ด์ด์ง ์๋ ์๋ค
- dense evaluation, multi-crop evaluation, ๋์ ์์ด์ ๊ฒ์ฆํ๋ ๋ฑ ์ฌ๋ฌ ๊ฒ์ฆ ๋ฐฉ๋ฒ์ ๋ํด ์์ ํ๊ณ ์์
3.3 Implementation Details
- Multi-GPU training. ๋ฐฐ์น๋จ์๋ก GPU์ ๋ค์ด๊ฐ์ ๋ณ๋ ฌ์ ์ผ๋ก ์ฒ๋ฆฌ๋๊ณ GPU ๋ฐฐ์น ๊ธฐ์ธ๊ธฐ ๊ณ์ฐํ์ ํ๊ท ๋ด์ด ์ ์ฒด ๋ฐฐ์น์ ๋ํ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ตฌํ๋ค
- ๊ธฐ์ธ๊ธฐ ๊ณ์ฐ์ GPU๋ค์ ๊ฑธ์ณ ๋์์ ์ผ์ด๋๋ฏ๋ก ๋จ์ผ GPU๋ฅผ ํ๋ จ์ํฌ ๋์ ๊ฐ์ ๊ฒฐ๊ณผ๊ฐ ๋์จ๋ค
=> ์ฌ๋ฌ๊ฐ์ GPU๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ ๊ณ์ฐ์ ๊ฑธ๋ฆฌ๋ ์๊ฐ์ ๋จ์ถ์ํด. ๋จ์ผ GPU ๊ฑธ๋ฆฌ๋ ์๊ฐ์์ 3.75๋ฐฐ ๋ ๋นจ๋ผ์ง
IV. Classification Experiments
- Dataset : ILSVRC-2012 dataset. 1000๊ฐ์ ํด๋์ค, 1.3M ํ๋ จ์ , 50K ๊ฒ์ฆ์ , 100K ๋ผ๋ฒจ ์๋ ํ ์คํธ์
- ํ๊ฐ ์ฑ๋ฅ ์งํ๋ top-1, top-5 error
4.1 Single Scale Evaluation
- ํ ์คํธ์ ์ ๋จ์ผ ์ด๋ฏธ์ง ํฌ๊ธฐ๋ก ๊ฒ์ฆํจ.
- ์์์ ์ธ๊ธํ ๊ฒ์ฒ๋ผ LRN์ ํฐ ํจ๊ณผ๊ฐ ์๊ธฐ์ B-E, ๊น์ ๋ชจ๋ธ์์ ์ฌ์ฉํ์ง ์๋๋ค
- ๋ชจ๋ธ์ ๊น์ด๊ฐ ์ฆ๊ฐํ ์๋ก ์๋ฌ๊ฐ ๊ฐ์ํ๋ ๊ฒ์ ํ์ธํจ. 11์ธต์ธ A๋ชจ๋ธ๋ถํฐ 19์ธต์ธ E๋ชจ๋ธ๊น์ง.
- C์ D๋ชจ๋ธ์ ์ฐจ์ด๋ ์ด๋ ๊ฒ ์ค๊ฐ ํฉ์ฑ๊ณฑ์ธต์ ํํฐ ์ฌ์ด์ฆ๊ฐ ๋ค๋ฆ. ํ์ง๋ง ๊ฐ์ ๊น์ด์๋ 3x3 ํํฐ๋ฅผ ์ด D๋ชจ๋ธ์ด ์ฑ๋ฅ์ด ๋ ์ข์๋ค
- ⇒ ๋ชจ๋ธ B์ ๋ชจ๋ธ C๋ฅผ ๋น๊ตํ์๋ 1x1 ํฉ์ฑ๊ณฑ์ธต์ ํตํด ๋น์ ํ์ฑ์ ์ถ๊ฐํด์ฃผ๋ ๊ฒ์ ํจ๊ณผ๊ฐ ์์ง๋ง / ํฉ์ฑ๊ณฑ์ธต์ ํตํด ๊ณต๊ฐ์ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ ๊ฒ ๋ํ ์ค์ํ๋ค. ๊ทธ๋ฐ๋ฉด์์ D๊ฐ C๋ณด๋ค ๋ ์ข์
- = 1x1 ํํฐ๋ฅผ ์ฌ์ฉํ๋ฉด ๋น์ ํ์ฑ์ ๋ ์ ํํํ ์ ์๊ฒ ๋์ง๋ง 3x3 ํํฐ๊ฐ ๊ณต๊ฐ-์์น ์ ๋ณด์ ํน์ง์ ๋ ์ ์ถ์ถํ๊ธฐ ๋๋ฌธ์ 3x3 ํํฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์ข๋ค
- B์ ํํ์์ ํํฐ์ฌ์ด์ฆ๋ง 5x5๋ก ๋ฐ๊ฟ์ ๋ง๋ shallow net๊ณผ B๋ฅผ ๋น๊ต, top-1 error์์ shallow net์ด B๋ณด๋ค 7% ๋ ๋์๋ค.
- ⇒ ๋์ ์ฑ๋ฅ ๋น๊ต๋ฅผ ํตํด ๊น์ ๋ชจ๋ธ์์ ํฐ ํํฐ๋ณด๋จ ์์ ํํฐ๊ฐ ๋ ์ข์ ์ฑ๋ฅ์ ๋์ ํ์ธํจ
- ํ๋ จ์ scale jittering(256~512 ์ฌ์ด ๋๋ค ์ค์ผ์ผ ์ง์ )์ ๊ณ ์ ๋ ์ค์ผ์ผ(S=256, S=384)๋ณด๋ค ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋๋ค
- ⇒ ์ผ์ข ์ ๋ ธ์ด์ฆ ์ถ๊ฐ๋ก ๋ชจ๋ธ์ ๊ฐ๊ฑดํ๊ฒ ๋ง๋ค์ด ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๊ณ ์ฑ๋ฅ์ ํฅ์์ํจ ๊ฒ์ผ๋ก ๋ณด์
4.2 Multi-Scale Evaluation
- ํ ์คํธ์ ์ผ๋ก ๋ค์ํ ์ด๋ฏธ์ง ํฌ๊ธฐ๋ฅผ ์ ์ฉํด ๊ฒ์ฆ
- ํ์ต์ scale jittering์ด ํจ๊ณผ๊ฐ ์์์์ ํ์ธ, ํ ์คํธ์๋ ํจ๊ณผ๊ฐ ์์์ง ํ์ธํด๋ณด๋ คํจ
- ํ๋ จ์ ๊ณผ ํ ์คํธ์ ์ ํฐ ์ค์ผ์ผ ์ฐจ์ด๋ ์ฑ๋ฅ์ ๋จ์ด๋จ๋ฆด ์ ์๋ค
- ๊ณ ์ ๋ S๋ก ํ๋ จ๋ ๋ชจ๋ธ์ ํ ์คํธ์ ์ค์ผ์ผ์ 3๊ฐ์ง๋ก ์ง์ ํ๋ค, ( S-32, S, S+32 )
- ํ๋ จ์ S๋ฅผ ๋ฒ์๋ก ์ฃผ์ด ํ๋ จํ ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ด ์ง์ ํ๋ค. ( Smin, 0.5*(Smin + Smax), Smax )
4.3 Multi-Crop Evaluation
4.4 ConvNet Fusion
- ์ฌ๋ฌ๊ฐ์ ๋ชจ๋ธ์ ํ๋ฅ ๊ฐ๋ค์ ํ๊ท ๋ด์ด ์์๋ธ.
- ๋ชจ๋ธ 7๊ฐ๋ฅผ ์์๋ธํ๊ฑฐ๋ multi-scale ๋ชจ๋ธ์ค ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ข์ 2๊ฐ๋ฅผ ์์๋ธํ๋ ๋ฑ ์ฌ๋ฌ ๋ชจ๋ธ ์กฐํฉ์ ํตํด ์์๋ธํจ
V. Conlusion
- ๋ชจ๋ธ์ ๋ ์ด์ด๊ฐ ๊น์ด์ง์๋ก ๋ฐ์ํ๋ ๋ฌธ์ , ์ค๋ฒํ์ ๋ํด ๊ฐ๋จํ๋ฉด์๋ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์ฑ๋ฅ์ ํ๊ธฐ์ ์ผ๋ก ์ฌ๋ฆฐ VGGNet.
- 3x3 ํํฐ์ Conv, ๋ ๊น์ ๋ ์ด์ด, ์ ๋ ฅ ์ด๋ฏธ์ง ์ฌ์ด์ฆ์ ๋ํ ๋ค์ํ ์๋, ์์๋ธ ๋ฑ์ ํตํ sota ๋ฌ์ฑ
Review
- ์๋ ์ค๋ท๊ณผ ํจ๊ป ๋ฅ๋ฌ๋์ ์ด์ฐฝ๊ธฐ ๋ชจ๋ธ๋ก, ์ธ๊ณต์ง๋ฅ์ ๊ณต๋ถํ๋ค๋ฉด ๋๊ตฌ๋ ํ๋ฒ์ฏค์ ๋ค์ด๋ณด๊ณ ์๋งํ ๋ชจ๋ธ์ด๋ค.
- ๋ ผ๋ฌธ์์ ์ ์ํ ๋ฐฉ๋ฒ๋ค์ ์ ์ฌ์ฉํ๋์ง์ ๋ํด ์ดํด๋ณด๋ฉด ์ข์ ์ธ์ฌ์ดํธ๋ค์ ์ป์ ์ ์๋ค.
- ์ค๋๋๊ณ ๊ฐ๋จํ ๋ชจ๋ธ์ด์ง๋ง ๋ฅ๋ฌ๋์ ๊ณต๋ถํ๋ค๋ฉด ํ๋ฒ์ฏค์ ๊ผญ ๊ณต๋ถํ๊ณ ๊ตฌํํด๋ณด๋ ๊ฒ์ด ๋์์ด ๋ ๊ฒ์ด๋ค.