반응형 bigbird1 [논문 리뷰] Big Bird: Transformers for Longer Sequences, 2020 https://arxiv.org/pdf/2007.14062.pdf Abstract BERT와 같은 transformer-based model은 NLP 분야에서 가장 좋은 성능을 내는 model 중 하나이다. 하지만 이 model의 가장 큰 단점은 full-attention mechanism을 사용하기 때문에, sequence length에 대한 한계점이 존재한다는 것이다. 따라서 이 논문에서 제안한 BIGBIRD model은 sparse attention을 제안하여 quadratic dependency를 linear하게 줄일 수 있도록 하였다. BIGBIRD는 기존 model들과 동일한 하드웨어를 사용하였을 때 8배 정도 긴 sequences를 처리할 수 있다고 한다. Introduction 기존 tra.. 2023. 1. 17. 이전 1 다음 반응형