반응형 ELECTRA1 [논문 리뷰] ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS, 2020 https://arxiv.org/pdf/2003.10555.pdf Abstract BERT와 같은 MLM pre-training methods는 input을 [MASK]와 같은 token으로 바꾸고, 해당 token들을 original token으로 복원시키려는 방식으로 훈련된다. 이러한 방법은 좋은 성능을 내긴 하지만, 효과적인 성능을 위해서는 매우 많은 양의 컴퓨팅 자원이 필요하다. 저자는 'replaced token detection'이라는 sample-efficient pre-training task를 제안하였다. input을 masking하는 것 보다는 조그마한 generator가 sampling한 plausible alternative samples들로 대체한다. 그리고 main model은 .. 2023. 1. 21. 이전 1 다음 반응형