Abstract
MobileNets라고 불리는 mobile과 embedded vision applications를 위한 효율적인 모델 소개
- MobileNets는 depth-wise separable convolutions를 기반으로 하는 더 가볍고 깊은 신경망
- global hyperparameter인 width multiplier와 resolution multiplier 2가지를 통해 model builder는 문제의 제약 조건에 따라 애플리케이션에 적합한 크기의 모델을 선택할 수 있음
- resource와 acc 사이의 tradeoff, ImageNet 분류에서 좋은 성능을 보임을 확인
- object detection, finegrain cliassification, face attributes, large scale geo-localization 과 같은 MobileNet이 사용되는 사례 확인
1. Introduction
AlexNet이 ImageNet 챌린지에서 deep CNN으로 우승한 이후로 CNN은 컴퓨터 비전 분야 어디에서든 찾아볼 수 있다. 일반적인 추세는 높은 정확도를 얻기 위해 네트워크를 더 깊고 복잡하게 만드는 것이다. 그러나 이런 방법은 크기나 속도 면에서 효율적이라고 볼 수는 없다. 로보틱스나 자율주행자동차, 증강현실 등의 실제 세계에서의 recognition task는 한정된 플랫폼에서 계산이 제 때 이뤄져야 한다. 이 논문에서는 mobile과 embedded vision application에 쉽게 적용할 수 있는, 작고 빠른 모델을 구축하기 효율적인 네트워크 아키텍처 MobileNet과 2개의 hyperparameter를 소개한다.
- 2섹션은 이전의 연구들을 리뷰하고 작은 모델을 구성한다.
- 3섹션은 MobileNet 아키텍처를 설명하고 더 빠르고 효율적인 MobileNet을 위한 2개의 하이퍼파라미터 width multiplier, resolution multiplier를 정의한다.
- 4섹션은 ImageNet에서의 실험과 다양한 application과 활용 사례를 소개한다.
- 5섹션은 결론
2. Prior Work
최근에 Alexnet, Flattened CNN, Binary CNN, Factorized CNN, Quantized CNN 같은 작고 효율적인 NN에 대한 관심이 높아지고 있다! 다양한 접근 방식들은 일반적으로 compressing pretrained와 소규모 네트워크를 직접 훈련하는 것으로 나뉜다. 이 논문에서는 모델 개발자가 application의 resource 제한(latency, size)과 일치하는 작은 네트워크를 선택할 수 있는 네트워크 아키텍처를 제안한다. MobileNet은 주로 latency를 최적화 하는데 집중하지만 작은 네트워크도 구성한다. 많은 논문에 있는 작은 네트워크는 속도는 고려하지 않고 그저 사이즈에만 집중한다.
MobileNet는 [Rigid-motion scattering for image classification] 논문에서 나온 depthwise separable convolutions으로 구축됐고 이후에 Inception model의 계산량을 줄이기 위해 처음 몇 개의 레이어로 사용됐다. Flattend 네트워크는 fully factorized convolution를 구축하고 extremely factorized network의 잠재력을 보여줬다. 지금 이 논문과 별개로, factorized network는 topological connection과 비슷한 factorized convolution을 소개했다. 이후에 Xception network는 Inception V3 network를 수행하기 위해 depthwise separable filter를 어떻게 확장하는지 설명했다. 또 다른 작은 네트워크는 아주 작은 네트워크를 구축하기 위해 병목 방식을 사용하는 Squeezenet이다. 다른 계산량이 감소된 네트워크에는 structured transform network와 deep fried convnet이 포함된다.
작은 네트워크를 얻기 위한 또 다른 접근으로 shrinking, factorizing, compressing pretrained networks가 있다. 제품 양자화, hashing, pruning, 벡터 양자화, Huffman 코딩에 기반한 compression이 제안되었다. 추가적으로 다양한 factorization은 pretrained network를 빠르게 하기 위해 제안되었다. 작은 네트워크를 훈련시키는 또다른 방법으로 작은 네트워크를 가르치기 위해 더 큰 네트워크를 사용하는 distillation이 있다. distillation은 우리의 접근 방식을 보완하며 4섹션에서 활용 사례를 다룬다. 또 다른 접근 방식으로 low bit network도 있다.
3. MobileNet Architecture
이번 섹션에서는 우선 depthwise separable filters로 구축된 MobileNet의 핵심 레이어를 설명하고, MobileNet 네트워크의 구조와 모델을 축소하는 width multiplier와 resolution multiplier 두 개의 하이퍼파라미터에 대한 설명으로 마친다.
3.1. Depthwise Separable Convolution
MobileNet 모델은 표준 convolution을 depthwise convolution과 1x1 convolution(pointwise convolution)으로 분해하는 depthwise separable convolution을 기반으로 한다. MobileNet의 경우 depthwise convolution은 각 입력 채널에 단일 필터를 적용하고 pointwise convolution은 1x1 convolution을 적용해 output을 depthwise convolution과 결합한다. 표준 convolution은 한 단계에서 input을 필터링하고 새로운 output set로 결합하지만, depthwise separable convolution은 convolution을 필터링과 결합을 위한 2개의 레이어로 분리한다. 이러한 분리는 계산을 줄이고 모델의 크기를 줄이는 효과가 있다.
그림2에서는 표준 convolution인 (a)가 depthwise convolution인 (b)와 1x1 pointwise convolution인 (c) 2개로 어떻게 분해되는 지 보여준다. 표준 convolution은 D_F x D_F x M 짜리 피처맵 F를 인풋으로 받고 D_F x D_F x N짜리 피처맵 G를 만들어낸다. 입력 피처맵에서 DF는 정사각형 피처맵의 width, height이고 M은 채널 수(depth)이다. 출력 피처맵에서 DG는 정사각형 피처맵의 width, height이고 N은 출력 채널 수(depth)이다.
표준 convolution layer는 D_K x D_K x M x N 크기의 convolution kernel K에 의해 파라미터화 된다. 여기서 D_K는 정사각형으로 가정되는 kernel의 공간 차원이고, M은 입력 채널 수, N은 이전에 정의된 출력 채널 수이다.
여기서 계산 비용은 입력 채널 수 M, 출력 채널 수 N, 커널 크기 D_K x D_K와 피처맵 크기 D_F x D_F를 곱한 것.
MobileNet 모델은 이러한 용어와 상호작용을 다룬다. 먼저 depthwise separable convolution을 이용해 출력 채널 수와 kernel 사이즈 사이의 상호작용을 끊는다.
표준 convolution 연산은 convolutional kernel을 기반으로 feature를 필터링하는 것과 새로운 representation을 생성하기 위해 feature를 결합하는 효과가 있다. 필터링과 결합 단계는 depthwise separable convolution이라고 불리는 factorized convolution을 이용해 두 단계로 분할할 수 있고 그러면 계산 비용이 크게 줄어든다.
Depthwise separable convolution은 depthwise, pointwise convoultion의 2개의 레이어로 구성돼 있다. 우리는 depthwise convolution으로 입력 채널 당 1개의 필터를 적용하고 간단한 1x1 convolution인 pointwise convolution은 depthwise 레이어의 출력인 선형 결합을 만든다. MobileNet은 두 개의 레이어에 batchnorm과 비선형 ReLU 모두를 사용한다.
K^은 D_K x D_K x M사이즈의 depthwise convolutional kernel이다. F의 m번째 채널에 K^의 m번째 필터를 적용해 필터링된 출력 피처맵 G^의 m번째 채널을 만든다.
Depthwise 컨볼 루션은 표준 컨볼 루션에 비해 매우 효율적입니다. 그러나 입력 채널 만 필터링하고 새로운 기능을 만들기 위해 결합하지는 않습니다. 따라서 이러한 새로운 기능을 생성하려면 1 × 1 컨볼 루션을 통해 깊이 별 컨볼 루션 출력의 선형 조합을 계산하는 추가 레이어가 필요합니다. depthwise convolution과 1 x 1 (pointwise) convolution의 조합은 [26]에서 처음 소개 된 depthwise separable convolution이라고합니다. 깊이 별 분리 가능한 컨볼 루션 비용 : DK · DK · M · DF · DF + M · N · DF · DF (5)는 깊이 별 및 1 × 1 점별 회선의 합입니다. 컨볼 루션을 필터링 및 결합의 2 단계 프로세스로 표현하면 DK · DK · M · DF · DF + M · N · DF · DF DK · DK · M · N · DF · DF = 1 N + 1 D2 K MobileNet은 섹션 4에서 볼 수 있듯이 정확도가 약간 감소하면서 표준 컨볼 루션보다 8 ~ 9 배 적은 계산을 사용하는 3 × 3 깊이 별 분리형 컨볼 루션을 사용합니다. [16, 31과 같은 공간 차원의 추가 인수 분해 ]는 깊이 별 컨볼 루션에 거의 계산이 사용되지 않으므로 추가 계산을 많이 절약하지 않습니다.
3.2. network structure and training
MobileNet 구조는 풀 컨볼 루션 인 첫 번째 레이어를 제외하고 이전 섹션에서 언급 한대로 깊이 별 분리 가능한 컨볼 루션을 기반으로합니다. 이러한 간단한 용어로 네트워크를 정의함으로써 네트워크 토폴로지를 쉽게 탐색하여 좋은 네트워크를 찾을 수 있습니다. MobileNet 아키텍처는 표 1에 정의되어 있습니다. 모든 계층 뒤에는 비선형 성이없고 분류를 위해 소프트 맥스 계층으로 공급되는 최종 완전 연결 계층을 제외하고 배치 규범 [13] 및 ReLU 비선형 성이 따릅니다. 그림 3은 규칙적인 컨볼 루션, batchnorm 및 ReLU 비선형 성이있는 레이어를 깊이 별 컨볼 루션, 1 × 1 포인트 별 컨볼 루션, 각 컨벌루션 레이어 이후의 batchnorm 및 ReLU가있는 인수 분해 된 레이어와 대조합니다. 다운 샘플링은 깊이 별 컨볼 루션과 첫 번째 레이어에서 스트라이드 컨볼 루션으로 처리됩니다. 최종 평균 풀링은 완전히 연결된 계층 이전의 공간 해상도를 1로 줄입니다. 깊이 별 및 점별 컨볼 루션을 별도의 레이어로 계산하는 MobileNet에는 28 개의 레이어가 있습니다.
적은 수의 다중 추가 측면에서 네트워크를 단순히 정의하는 것만으로는 충분하지 않습니다. 이러한 작업을 효율적으로 구현할 수 있는지 확인하는 것도 중요합니다. 예를 들어 구조화되지 않은 희소 행렬 연산은 일반적으로 매우 높은 수준의 희소성이 될 때까지 조밀 행렬 연산보다 빠르지 않습니다. 우리의 모델 구조는 거의 모든 계산을 조밀 한 1 × 1 컨볼 루션으로 만듭니다. 이는 고도로 최적화 된 GEMM (General Matrix Multiply) 기능으로 구현할 수 있습니다. 종종 컨볼 루션은 GEMM에 의해 구현되지만이를 GEMM에 매핑하려면 im2col이라는 메모리에서 초기 재정렬이 필요합니다. 예를 들어,이 접근법은 인기있는 Caffe 패키지에서 사용됩니다 [15]. 1x1 컨볼 루션은 메모리에서 이러한 재정렬이 필요하지 않으며 가장 최적화 된 수치 선형 대수 알고리즘 중 하나 인 GEMM으로 직접 구현할 수 있습니다. MobileNet은 계산 시간의 95 %를 1 × 1 컨볼 루션으로 소비하며 표 2에서 볼 수 있듯이 매개 변수의 75 %도 포함합니다. 거의 모든 추가 매개 변수가 완전 연결 계층에 있습니다.
MobileNet 모델은 Inception V3 [31]과 유사한 비동기 경사 하강 법과 함께 RMSprop [33]을 사용하여 TensorFlow [1]에서 훈련되었습니다. 그러나 큰 모델을 훈련하는 것과 달리 작은 모델은 과적 합에 대한 문제가 적기 때문에 정규화 및 데이터 증대 기술을 덜 사용합니다. MobileNets를 훈련 할 때 우리는 사이드 헤드 또는 라벨 스무딩을 사용하지 않으며, 대규모 Inception 훈련에 사용되는 작은 작물의 크기를 제한하여 왜곡 이미지의 양을 추가로 줄입니다 [31]. 또한 깊이 별 필터에는 매개 변수가 너무 적기 때문에 가중치 감소 (l2 정규화)를 거의 또는 전혀 사용하지 않는 것이 중요하다는 사실을 발견했습니다. 다음 섹션의 ImageNet 벤치 마크의 경우 모든 모델은 모델의 크기에 관계없이 동일한 학습 매개 변수로 학습되었습니다.
3.3. width multiplier: thinner models
기본 MobileNet 아키텍처는 이미 작고 대기 시간이 짧지 만 특정 사용 사례 또는 애플리케이션에서는 모델이 더 작고 빨라야하는 경우가 많습니다. 이 작고 계산 비용이 덜 드는 모델을 구성하기 위해 폭 승수라는 매우 간단한 매개 변수 α를 도입합니다. 폭 승수 α의 역할은 각 계층에서 네트워크를 균일하게 얇게 만드는 것입니다. 주어진 레이어 및 폭 승수 α에 대해 입력 채널 수 M은 αM이되고 출력 채널 수 N은 αN이됩니다.
폭 승수 α를 사용하는 깊이 별 분리형 컨볼 루션의 계산 비용은 다음과 같습니다.
여기서 α ∈ (0, 1] (일반 설정 1, 0.75, 0.5 및 0.25). α = 1은 기준 MobileNet이고 α <1은 감소 된 MobileNet입니다. 폭 승수는 계산 비용과 매개 변수 수를 2 차적으로 줄이는 효과가 있습니다. 폭 승수는 모든 모델 구조에 적용하여 합리적인 정확도, 지연 시간 및 크기 절충을 통해 새로운 소형 모델을 정의 할 수 있습니다. 처음부터 학습해야하는 새로운 축소 구조를 정의하는 데 사용됩니다.
3.4. resolution multiplier: reduced representation
신경망의 계산 비용을 줄이는 두 번째 하이퍼 매개 변수는 해상도 승수 ρ입니다. 이것을 입력 이미지에 적용하면 모든 레이어의 내부 표현이 동일한 승수로 감소됩니다. 실제로 우리는 입력 해상도를 설정하여 암시 적으로 ρ를 설정합니다.
이제 네트워크의 핵심 계층에 대한 계산 비용을 폭 승수 α 및 해상도 승수 ρ를 사용하여 깊이 별 분리 가능한 컨볼 루션으로 표현할 수 있습니다.
여기서 ρ ∈ (0, 1]은 일반적으로 네트워크의 입력 해상도가 224, 192, 160 또는 128이되도록 암시 적으로 설정됩니다. ρ = 1은 기준 MobileNet이고 ρ <1은 감소 된 계산 MobileNet입니다. Resolution multiplier는 다음과 같습니다. 계산 비용을 ρ ^ 2만큼 줄이는 효과.
예를 들어 MobileNet의 일반적인 레이어를 살펴보고 깊이 별 분리 가능한 컨볼 루션, 너비 배율 및 해상도 배율이 비용과 매개 변수를 줄이는 방법을 확인할 수 있습니다. 표 3은 아키텍처 축소 방법이 계층에 순차적으로 적용됨에 따라 계층에 대한 계산 및 매개 변수 수를 보여줍니다. 첫 번째 행은 크기가 14 × 14 × 512이고 커널 K 크기가 3 × 3 × 512 × 512 인 전체 컨벌루션 계층에 대한 다중 추가 및 매개 변수를 보여줍니다. 다음 섹션에서 자세히 살펴 보겠습니다. 리소스와 정확성 사이의 절충안에서.
4. experiments
이 섹션에서는 먼저 레이어 수보다 네트워크의 너비를 줄여서 축소 선택과 깊이 별 컨볼 루션의 효과를 조사합니다. 그런 다음 폭 승수와 해상도 승수라는 두 개의 하이퍼 매개 변수를 기반으로 네트워크를 줄이는 것의 장단점을 보여주고 그 결과를 여러 인기 모델과 비교합니다. 그런 다음 다양한 애플리케이션에 적용된 MobileNet을 조사합니다.
4.1. model choices
먼저 풀 컨볼 루션으로 빌드 된 모델과 비교하여 깊이 별 분리 가능한 컨볼 루션이있는 MobileNet의 결과를 보여줍니다. 표 4에서 전체 컨볼 루션과 비교하여 깊이 별 분리 가능한 컨볼 루션을 사용하면 ImageNet에서 정확도가 1 % 만 감소하면 다중 추가 및 매개 변수를 크게 절약 할 수 있습니다.
다음으로 너비 승수를 사용하는 더 얇은 모델과 더 적은 레이어를 사용하는 더 얕은 모델을 비교 한 결과를 보여줍니다. MobileNet을 더 얕게 만들기 위해 표 1에서 피처 크기가 14 × 14 × 512 인 5 개의 분리 가능한 필터 레이어가 제거되었습니다. 표 5는 유사한 계산 및 매개 변수 수에서 MobileNets를 더 얇게 만드는 것이 더 얕게 만드는 것보다 3 % 더 우수하다는 것을 보여줍니다.
4.2. model shrinking hyperparamters
표 6은 너비 승수 α를 사용하여 MobileNet 아키텍처를 축소 할 때의 정확도, 계산 및 크기 절충을 보여줍니다. α = 0.25에서 아키텍처가 너무 작아 질 때까지 정확도가 부드럽게 떨어집니다.
표 7은 감소 된 입력 해상도로 MobileNet을 훈련함으로써 다양한 해상도 승수에 대한 정확도, 계산 및 크기 절충을 보여줍니다. 정확도는 해상도 전체에서 부드럽게 떨어집니다.
그림 4는 너비 승수 α ∈ {1, 0.75, 0.5, 0.25} 및 해상도 {224, 192, 160, 128}의 외적에서 만든 16 개 모델에 대한 ImageNet 정확도와 계산 간의 균형을 보여줍니다. α = 0.25에서 모델이 매우 작아지면 결과는 로그 선형으로 점프합니다.
그림 5는 너비 승수 α ∈ {1, 0.75, 0.5, 0.25} 및 해상도 {224, 192, 160, 128}의 외적에서 만든 16 개 모델에 대한 ImageNet 정확도와 매개 변수 수 간의 균형을 보여줍니다.
표 8은 전체 MobileNet을 원래의 GoogleNet [30] 및 VGG16 [27]과 비교합니다. MobileNet은 VGG16만큼 정확하지만 32 배 더 작고 27 배 더 적은 컴퓨팅 집약적입니다. 더 작고 계산이 2.5 배 이상 적 으면서 GoogleNet보다 더 정확합니다.
표 9는 감소 된 MobileNet과 너비 승수 α = 0.5 및 감소 된 해상도 160 × 160을 비교합니다. 감소 된 MobileNet은 AlexNet [19]보다 4 % 우수하고 AlexNet보다 45 배 더 작고 9.4 배 더 적은 컴퓨팅입니다. 또한 거의 같은 크기로 Squeezenet [12]보다 4 % 더 우수하고 계산량이 22 배 더 적습니다.
4.3. fine grained recognition
Stanford Dogs 데이터 세트 [17]에서 미세한 인식을 위해 MobileNet을 훈련합니다. 우리는 [18]의 접근 방식을 확장하고 웹에서 [18]보다 더 크지 만 시끄러운 훈련 세트를 수집합니다. 시끄러운 웹 데이터를 사용하여 세밀한 개 인식 모델을 사전 훈련 한 다음 Stanford Dogs 훈련 세트에서 모델을 미세 조정합니다. Stanford Dogs 테스트 세트에 대한 결과는 표 10에 나와 있습니다. MobileNet은 크게 줄어든 계산 및 크기로 [18]의 최신 결과를 거의 얻을 수 있습니다.
4.4. large scale geolocalization
PlaNet [35]은 사진이 분류 문제로 촬영 된 곳을 결정하는 작업을 수행합니다. 이 접근 방식은 지구를 대상 클래스 역할을하는 지리적 셀 그리드로 나누고 수백만 개의 지리적 태그가 지정된 사진에서 컨볼 루션 신경망을 훈련시킵니다. PlaNet은 다양한 사진을 성공적으로 현지화하고 동일한 작업을 처리하는 Im2GPS [6, 7]를 능가하는 것으로 나타났습니다.
동일한 데이터에 대해 MobileNet 아키텍처를 사용하여 PlaNet을 재교육합니다. Inception V3 아키텍처 [31]에 기반한 전체 PlaNet 모델에는 5,200 만 개의 매개 변수와 5,740 만 개의 다중 추가가 있습니다. MobileNet 모델에는 일반적으로 바디에 3 백만 개, 최종 레이어에 1 천만 개, 다중 추가 0.58 백만 개와 함께 1300 만 개의 매개 변수 만 있습니다. Tab과 같이. 11에서 MobileNet 버전은 훨씬 더 콤팩트 함에도 불구하고 PlaNet에 비해 약간 저하 된 성능을 제공합니다. 또한 여전히 Im2GPS를 크게 능가합니다.
4.5. face attributes
MobileNet의 또 다른 사용 사례는 알 수 없거나 난해한 교육 절차로 대규모 시스템을 압축하는 것입니다. 얼굴 속성 분류 작업에서 우리는 딥 네트워크를위한 지식 전달 기법 인 MobileNet과 증류 [9] 간의 시너지 관계를 보여줍니다. 우리는 7 천 5 백만 개의 매개 변수와 1 억 6 천만 개의 다중 추가로 큰 얼굴 속성 분류기를 줄이려고합니다. 분류기는 YFCC100M [32]과 유사한 다중 속성 데이터 세트에서 훈련됩니다.
MobileNet 아키텍처를 사용하여 얼굴 속성 분류기를 추출합니다. Distillation [9]은 분류기를 학습하여 실측 레이블 대신 더 큰 모델 2의 출력을 에뮬레이트하므로 레이블이 지정되지 않은 대규모 (잠재적으로 무한한) 데이터 세트에서 학습 할 수 있습니다. 증류 교육의 확장 성과 MobileNet의 간결한 매개 변수화를 결합한 최종 시스템은 정규화 (예 : 체중 감량 및 조기 중지)가 필요하지 않을뿐만 아니라 향상된 성능을 보여줍니다. Tab에서 분명합니다. 12 MobileNet 기반 분류기는 공격적인 모델 축소에 대해 탄력적입니다. 다중 추가를 1 % 만 소비하면서 내부와 비슷한 속성 (평균 AP) 전반에 걸쳐 유사한 평균 평균 정밀도를 달성합니다.
4.6. object detection
MobileNet은 또한 현대적인 물체 감지 시스템에서 효과적인 기본 네트워크로 배치 될 수 있습니다. 2016 COCO 챌린지에서 우승 한 최근 작업을 기반으로 COCO 데이터에 대한 물체 감지를 위해 훈련 된 MobileNet의 결과를보고합니다 [10]. 표 13에서 MobileNet은 Faster-RCNN [23] 및 SSD [21] 프레임 워크에서 VGG 및 Inception V2 [13]와 비교됩니다. 실험에서 SSD는 300 입력 해상도 (SSD 300)로 평가되고 Faster-RCNN은 300 및 600 입력 해상도 (FasterRCNN 300, Faster-RCNN 600)와 비교됩니다. Faster-RCNN 모델은 이미지 당 300 개의 RPN 제안 상자를 평가합니다. 모델은 8k 미니 벌 이미지를 제외한 COCO train + val에서 훈련되고 미니 벌에서 평가됩니다. 두 프레임 워크 모두에서 MobileNet은 계산 복잡성과 모델 크기의 일부만으로 다른 네트워크와 비슷한 결과를 얻을 수 있습니다.
4.7. face embeddings
FaceNet 모델은 최첨단 얼굴 인식 모델입니다 [25]. 삼중 항 손실을 기반으로 얼굴 임베딩을 구축합니다. 모바일 FaceNet 모델을 구축하기 위해 우리는 훈련 데이터에서 FaceNet 및 MobileNet 출력의 제곱 차이를 최소화함으로써 훈련을 위해 증류를 사용합니다. 매우 작은 MobileNet 모델에 대한 결과는 표 14에서 찾을 수 있습니다.
5. Conclusion
- depthwise separable convolution인 새로운 모델 아키텍처 MobileNets를 살펴봤다
- 효율적인 모델을 위한 중요한 설계 결정을 정했고, model 크기와 latency를 줄이기 위해 합리적인 acc를 정하고 width multiplier를 이용해서 더 작고 더 빠른 MobileNets를 만들었음.
- 다른 크고 빠르고 acc가 높은 모델과 MobileNet을 비교했고, MobileNet의 효율성을 다양한 일에 적용함으로 입증
- 다음 단계로는 Tensor Flow에서 모델을 출시할 예정 ~
'CV > 논문' 카테고리의 다른 글
[ViT] An Image is Worth 16X16 Words: Transformers for Image Recognition at Scale (0) | 2021.05.20 |
---|---|
EfficientNet (0) | 2021.04.15 |
ShuffleNet (0) | 2021.04.08 |