본문 바로가기
반응형

자연어처리9

[논문 리뷰] BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer, 2019 https://arxiv.org/pdf/1904.06690.pdf Abstract 유저의 historical 행동으로부터 dynamic 선호도를 모델링하는 것은 현재까지도 연구 중이고, 추천시스템 내에서도 중요한 역할을 한다. 이전 방법들은 sequential neural network를 이용하여 유저의 historical interaction들을 left-to-right하게 encode한다. 이 방법은 효과적이긴 하지만, left-to-right unidirectional 모델들은 다음과 같은 이유 때문에 sub-optimal하다. a) 유저의 행동 시퀀스의 hidden representation의 power를 제한한다. b) 순서가 정해져 있는 시퀀스는 항상 유용하지는 않다. 이러한 limitatio.. 2023. 1. 26.
[논문 리뷰] BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension, 2019 https://arxiv.org/pdf/1910.13461.pdf Abstract 이 논문에서는 'denoising autoencoder for pretraining sequence-to-sequence' model인 BART를 제안한다. BART는 (1) 임의의 noising function을 이용하여 text를 corrupting하고, (2) original text를 reconstruct하도록 학습된다. Introduction Self-supervised 방법은 현재 폭넓은 NLP task에서 주목할만한 성능을 보이고 있다. 가장 성공적인 approaches는 MLM으로, masking된 text를 original text로 reconstruction 하도록 훈련되는 denoising autoenc.. 2023. 1. 25.
[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2018 https://arxiv.org/pdf/1810.04805.pdf Abstract 이 논문에서는 Bidirecitonal Encoder Representations form Transformers의 BERT 모델을 새롭게 제시한다. 다른 language representation model들과는 달리, BERT는 left, right context 모두 고려하는 unlabeled text를 이용하여 pre-train을 진행하도록 구현되어있다. pre-trained BERT model은 output layer 하나만을 추가함으로써 fine-tuning이 가능하고, task에 따른 추가적인 model 수정 없이 QA와 language inference 와 같은 NLP task에서 SOTA의 성능을 내었다고 .. 2023. 1. 24.
[논문 리뷰] ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS, 2020 https://arxiv.org/pdf/2003.10555.pdf Abstract BERT와 같은 MLM pre-training methods는 input을 [MASK]와 같은 token으로 바꾸고, 해당 token들을 original token으로 복원시키려는 방식으로 훈련된다. 이러한 방법은 좋은 성능을 내긴 하지만, 효과적인 성능을 위해서는 매우 많은 양의 컴퓨팅 자원이 필요하다. 저자는 'replaced token detection'이라는 sample-efficient pre-training task를 제안하였다. input을 masking하는 것 보다는 조그마한 generator가 sampling한 plausible alternative samples들로 대체한다. 그리고 main model은 .. 2023. 1. 21.
반응형