
Paper Review. Training data-efficient image transformers and distillation through attention@ICML’ 2021




Conclusions & Reviews

  • Image Classification에서 비교적 적은 데이터 셋으로도 성능을 끌어 올릴 수 있는 distillation token을 제안함.

  • DeiT에서 제안한 distillation 방법이 Teacher가 CNN일때 inductive bias를 어느정도 학습해 성능을 더 끌어 올릴 수 있다는 것을 보여줌.

  • ImageNet에서 pretrain된 모델이 다른 데이터 셋 task에서도 좋은 성능을 도출함.

  • transformer를 image classification에서 비교적 가볍게 pretrain 가능하다는 것이 놀라웠다.

  • Knowledge Distillation 기법을 transformer안에 단순히 하나의 토큰으로 녹여낸 점이 인상적이었다.

  • Transformer를 실용적 pretrain 하기 위해서는 Knowledge Distillation 기법이 핵심적인 역할을 하기때문에 앞으로 CV에서 Transformer에 KD를 효율적이게 사용할 수 있게 하는 연구가 활발해질 것 같다는 느낌을 받았다.


