목록deep daiv./NLP 스터디 (10)
working_helen
이전 포스트에서 다룬 LLM을 실제 환경에서 더 효율적으로 사용하기 위해서 어떤 연구가 진행되어 왔는지 알아본다. 1. LLM의 한계 2. Parameter Efficient Fine Tuning(PEFT)3. Quantization 양자화 1. LLM의 Scaling law - OpenAI에서 2020년 발표한 "Scaling Laws for Language Models"은 LLM의 성능 향상에 대한 근거 제시 - LM 학습 시 연산량, 데이터셋 규모, 파라미터를 늘리면 test loss가 계속해서 감소함을 실험적으로 보임 모델 사이즈 증가에 따라 모델의 성능이 선형적으로 향상 - 모델 사이즈가 커질수록 성능이 좋아진다는 사실로 인해 대규모 파라미터와 훈련 데이터를 사용하는 LLM이 발전해옴..
이전 포스트에서 다룬 언어모델에 대한 이해를 바탕으로 RAG model에 대해 학습해본다. RAG model과 관련된 논문 "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks"를 리뷰한다. 1. RAG model 2. 논문 리뷰 1. RAG model - Facebook AI Research(FAIR) 팀에서 2020년에 발표한 "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" 논문에서 제안된 모델 1) RAG 등장 배경 - 기존의 LLM은 학습 시점에 제공되는 데이터로부터 정보를 추출하여 파라미터에 저장하는 방식을 사용하기 때문에 학습 시 제공하지 않은 데..
이전 포스트에서 다룬 언어모델에 대한 이해를 바탕으로 LoRA에 대해 학습해본다. LoRA와 관련된 논문 "LoRA: Low-Rank Adaptation of Large Language Models"를 리뷰한다. 1. LoRA 2. 논문 리뷰 1. LoRA- Microsoft Research에서 2021년 발표한 "LoRA: Low-Rank Adaptation of Large Language Models" 논문에서 제안된 모델 - LLM을 더 효율적으로 tuning하기 위한 기술로 주목을 받음 1) LoRA 등장 배경 - NLP에선 대규모 언어모델을 각각의 task에 맞게 fine-tuning하는 것이 일반적이었음 - pre-training 과정에서 어느정도 최적화된 파라미터를 각 task에..
이전 포스트에서 다룬 언어모델에 대한 이해를 바탕으로 프롬프트 엔지니어링에 대해 학습해본다. Chain-of-Thought prompting과 관련된 논문 "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models"를 리뷰한다. 1. prompt engineering2. Chain-of-Thought prompting 3. 논문 리뷰 1. prompt engineering 1) prompt 프롬프트: 특정 작업을 수행하도록 AI에 요청하는 자연어 텍스트 언어모델에서 특정한 출력을 생성하기 위해 사용자가 입력하는 텍스트 2) prompt engineering 프롬프트 엔지니어링 : AI가 원하는 결과를 생성하도록 지시하는 최적..
이전 포스트에서 다룬 Transformer의 개념을 바탕으로 BERT에 대해 학습해본다. BERT와 관련된 논문 "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"를 리뷰한다. 1. BERT 2. 논문 리뷰 1. BERT - Google에서 2018년 발표한 "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding" 논문에서 제안된 모델 - Bidirctional Encoder Representations form Transformers - 다양한 NLP task에서 혁신적인 성능 향상을 가져옴 1) BERT 등..
이전 포스트에서 다룬 Transformer의 개념을 바탕으로 GPT-1에 대해 학습해본다. GPT-1과 관련된 논문 "Improving Language Understanding by Generative Pre-Training"를 리뷰한다. 1. GPT-1 2. 논문 리뷰 1. GPT-1 - OpenAI에서 2018년에 발표한 “Improving Language understanding by Generative Pre-Training" 논문에서 제안된 모델 - Generative Pre Training of a language model - 자연어 처리 분야에서 전이 학습의 가능성을 처음으로 입증한 모델 중 하나- 이후 GPT-2, GPT-3, GPT-4와 같은 후속 모델들로 이어짐 1) GPT-..
이전 포스트에서 다룬 Attention Mechanism 의 개념을 바탕으로 Transformer에 대해 학습해본다. Transformer와 관련된 논문 "Attention Is All You Need"를 리뷰한다. 1. Transformer 2. 논문 리뷰 1. Transformer - 구글이 2017년에 발표한 "Attention is all you need" 논문에서 제안된 모델 - GPT와 같은 대규모 언어모델의 기반이 되고 있음 - 자연어처리 뿐만 아니라 컴퓨터 비전이나 음성 인식 등 다른 분야에도 활용되어 AI의 성능을 향상 1) Transformer 등장 배경 - 이전까지는 RNN 혹은 CNN 기반의 encoder-decoder 모델은 sequence를 순차적으로 처리 - 이로 인해..
이전 포스트에서 다룬 Seq2Seq의 개념을 바탕으로 Attention Mechanism에 대해 학습해본다. Attention Mechanism과 관련된 논문 "Neural Machine Translation by Jointly Learning to Align and Translate"를 리뷰한다. 1. Attention Mechanism 2. 논문 리뷰 1. Attention Mechanism 1) Attention Mechanism 등장 배경 - Seq2Seq 방식은 고정된 크기의 벡터에 문장 속의 모든 정보를 인코딩하기 때문에 정보 손실이 발생한다. - Seq2Seq까지의 encoder-decoder 모델은 다른 길이의 input에 대해 고정된 길이의 context vector를 출력 - ..
이전 포스트에서 다룬 RNN, LSTM 개념을 기반으로 NMT (Neural Machine Translation)의 개념과 Seq2Seq 모델에 대해 학습해본다. Seq2Seq 모델에 관한 논문 "Sequence to Sequence Learning with Neural Networks"를 리뷰한다. 1. NMT2. Seq2Seq3. 논문 리뷰 1. NMT 1) SMT (Statistical Machine Translation, 통계 기반 기계번역) - 대규모 데이터를 사용해 확률적으로 번역하는 방법 - 단어와 구문의 번역 데이터를 확보해 일종의 번역 사전을 생성하고 입력 문장을 단어와 구로 분할하여 가장 연관성이 높은 번역 결과를 선택- 희귀 단어와 구문에 대한 데이터의 부재, 대규모 메모리 요구 ..
NMT (Neural Machine Translation)에 관해 학습하기 위해 NMT에서 seqeunce data 처리를 위해 사용되는 RNN과 LSTM을 먼저 학습해본다. 1. RNN2. LSTM 1. RNN1) RNN의 등장배경 ① 순차적 데이터 처리의 어려움 - sequential problem : 현실 데이터는 순서를 가지는 sequential data인 경우가 많음 - 자연어 처리, 음성인식, 기계번역, 시계열 예측 등 - sequential data는 이전의 state가 다음 state에 영향을 미치는 구조이기 때문에 이전 상태의 정보를 보존하여 현재의 입력과 함께 처리할 수 있어야 함 - DNN은 각각의 입력을 독립적으로 처리하기 때문에 이전 state의 정보를 제대로 반영하지 못함 ② ..