Post

Paper Review. An all-MLP Architecture for Vision@arXiv’2021

Abstract

Introduction

MLP_Mixer

Experiments

Conclusions & Reviews

  • CNN과 Self-attention을 사용하지 않는 MLP-Mixer를 제안함.

  • 이미지 처리에 대한 2가지(Cross location, Per location) 중요점을 명시적으로 제안함.

  • 처리량, 성능, 시간 대비 기존 SOTA 모델에 준하는 성능을 달성함.

  • 근본적으로 돌아와서 MLP로 성능을 개선하고 처리량 등을 개선한 점이 놀라웠다.

  • inductive bias의 이론적 이해와 직관이 CV 연구에 어쩌면 가장 중요한 점이 아닐까라는 생각을 가졌다.

Reference

This post is licensed under CC BY 4.0 by the author.