반응형 MLM2 [논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2018 https://arxiv.org/pdf/1810.04805.pdf Abstract 이 논문에서는 Bidirecitonal Encoder Representations form Transformers의 BERT 모델을 새롭게 제시한다. 다른 language representation model들과는 달리, BERT는 left, right context 모두 고려하는 unlabeled text를 이용하여 pre-train을 진행하도록 구현되어있다. pre-trained BERT model은 output layer 하나만을 추가함으로써 fine-tuning이 가능하고, task에 따른 추가적인 model 수정 없이 QA와 language inference 와 같은 NLP task에서 SOTA의 성능을 내었다고 .. 2023. 1. 24. [논문 리뷰] ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS, 2020 https://arxiv.org/pdf/2003.10555.pdf Abstract BERT와 같은 MLM pre-training methods는 input을 [MASK]와 같은 token으로 바꾸고, 해당 token들을 original token으로 복원시키려는 방식으로 훈련된다. 이러한 방법은 좋은 성능을 내긴 하지만, 효과적인 성능을 위해서는 매우 많은 양의 컴퓨팅 자원이 필요하다. 저자는 'replaced token detection'이라는 sample-efficient pre-training task를 제안하였다. input을 masking하는 것 보다는 조그마한 generator가 sampling한 plausible alternative samples들로 대체한다. 그리고 main model은 .. 2023. 1. 21. 이전 1 다음 반응형