Paper Review. Unified Vision Language Pre-Training for Image Captioning and VQA@AAAI’ 2020

Posted Dec 1, 2020

By 1 min read

Paper link

Abstract

Introduction

Vision Language Pre training

Experiments

Conclusions & Reviews

Image captioning과 VQA tasks들에 적용할 수 있는 Unified VLP model을 선보임.
대부분의 down stream tasks에서 SOTA 성능을 보임.
encoder decoder를 분리하지 않고 하나의 통합된 모델로 사용하는 점이 흥미로움.

Reference

Paper Reviews, CV

Image Captioning Visual Question Answering

This post is licensed under CC BY 4.0 by the author.

Trending Tags

Algorithm Object Detection Aerial DOTA EO Oriented Object Detectoin Remote Oriented DETR Transformer AO2