반응형 Bert6 [논문 리뷰] BERTSUM : Text Summarization with Pretrained Encoders, 2019 https://arxiv.org/pdf/1908.08345.pdf Abstract BERT는 최근 넓은 NLP 분야에서 성능을 크게 향상시킨 모델이다. 이 논문에서는 BERT 모델을 어떻게 text summarization task에 적용할지와 extractive / abstractive summarization에 대한 model을 제안한다. 최신의 document-level encoder를 추가하여 BERT가 document의 semantics들을 표현하고, 각각의 문장들의 표현을 가지고 있을 수 있도록 설계하였다. Extractive model에서는 해당 encoder의 가장 윗단에 몇개의 intersentence Transformer layer를 추가하였다. Abstractive model에서는 새.. 2023. 1. 17. [논문 리뷰] Big Bird: Transformers for Longer Sequences, 2020 https://arxiv.org/pdf/2007.14062.pdf Abstract BERT와 같은 transformer-based model은 NLP 분야에서 가장 좋은 성능을 내는 model 중 하나이다. 하지만 이 model의 가장 큰 단점은 full-attention mechanism을 사용하기 때문에, sequence length에 대한 한계점이 존재한다는 것이다. 따라서 이 논문에서 제안한 BIGBIRD model은 sparse attention을 제안하여 quadratic dependency를 linear하게 줄일 수 있도록 하였다. BIGBIRD는 기존 model들과 동일한 하드웨어를 사용하였을 때 8배 정도 긴 sequences를 처리할 수 있다고 한다. Introduction 기존 tra.. 2023. 1. 17. 이전 1 2 다음 반응형