목록2024/08/07 (2)
working_helen
이전 포스트에서 다룬 Attention Mechanism 의 개념을 바탕으로 Transformer에 대해 학습해본다. Transformer와 관련된 논문 "Attention Is All You Need"를 리뷰한다. 1. Transformer 2. 논문 리뷰 1. Transformer - 구글이 2017년에 발표한 "Attention is all you need" 논문에서 제안된 모델 - GPT와 같은 대규모 언어모델의 기반이 되고 있음 - 자연어처리 뿐만 아니라 컴퓨터 비전이나 음성 인식 등 다른 분야에도 활용되어 AI의 성능을 향상 1) Transformer 등장 배경 - 이전까지는 RNN 혹은 CNN 기반의 encoder-decoder 모델은 sequence를 순차적으로 처리 - 이로 인해..
이전 포스트에서 다룬 Seq2Seq의 개념을 바탕으로 Attention Mechanism에 대해 학습해본다. Attention Mechanism과 관련된 논문 "Neural Machine Translation by Jointly Learning to Align and Translate"를 리뷰한다. 1. Attention Mechanism 2. 논문 리뷰 1. Attention Mechanism 1) Attention Mechanism 등장 배경 - Seq2Seq 방식은 고정된 크기의 벡터에 문장 속의 모든 정보를 인코딩하기 때문에 정보 손실이 발생한다. - Seq2Seq까지의 encoder-decoder 모델은 다른 길이의 input에 대해 고정된 길이의 context vector를 출력 - ..