목록deep daiv. (40)
working_helen

각 리뷰들에 대하여 긍정/부정/중립 감정을 라벨링하는 감정분석을 진행한다. LLM 프롬프트 엔지니어링을 사용해 감정분석을 진행한 과정에 대해 정리해본다. 1. Llama few-shot prompting2. 감정분석 결과 ▶ KcELECTRA을 fine-tuning 모델을 활용한 리뷰 감정 분석 : ELECTRA 모델에서 감정분석 성능이 좋지 않았음 → 모델 크기가 더 큰 LLM에 해당하는 Llama 사용 시도 2024.09.06 - [deep daiv./NLP project] - [리뷰 감정 분석] KOTE 논문 리뷰 / KOTE fine-tuning 모델을 활용한 감정 분석 [감정 분석] 한국어 감정 분석 데이터셋 KOTE 논문 리뷰 / Python에서 KOTE 모델 사용하기마켓컬리 ..

앞서 키워드 추출을 통해 선정한 6가지 리뷰 내용 카테고리를 활용한다. 프롬프트 엔지니어링을 사용해 각 리뷰마다 내용에서 6가지 카테고리 중 해당되는 일부분이 있다면 이를 태깅하여 데이터셋으로 저장하는 과정을 진행한다. 1. GPT API few-shot prompting2. 카테고리 태깅 결과 📢 카테고리 태깅 과정, 감정분석, 요약 과정- Llama의 수행 시간 및 코랩 GPU 제한, GPT API 호출 비용으로 인해 150만개 리뷰 전체를 다 사용 불가 - 23년도 이후 & 4단어 이상 리뷰들만 선택 → ’도움돼요’ 개수가 많은 순, 최신순으로 정렬 후 각 상품마다 상위 50개의 리뷰만 사용 1. GPT API few-shot prompting✅ GPT API few-shot prom..
마켓컬리 '국 · 탕 · 찌개' 상품들의 리뷰 텍스트에서부터 키워드를 추출한 후 리뷰 내용을 분류할 카테고리를 선정하는 과정을 진행한다. 리뷰 텍스트를 어떤 주제 카테고리로 클러스터링할 수 있는지 파악한다. 1. Llama few-shot prompting2. 키워드 추출 결과 1. Llama few-shot prompting✅ Llama few-shot prompting으로 마켓컬리 리뷰 내용의 키워드 추출 시도 LLM에게 요구할 task- 주어진 리뷰 전문으로부터 주요 키워드를 추출하는 task- 각 리뷰마다 키워드 추출을 진행 → 모든 키워드 추출 결과를 합쳐 마켓컬리 리뷰 속 키워드 추출 결과로 활용 사용 데이터- 길고 자세하게 작성된 리뷰들의 키워드는 짧고 간단한 리뷰들의 키워드를 포..

LLM의 등장배경을 살펴보고 본 프로젝트에서 활용한 Meta Llama와 OpenAI GPT에 대해 알아본다. 1. LLM 등장 배경2. OpenAI GPT vs Meta Llama3. few-shot prompt engineering 4. GPT API prompt engineering 5. Llama prompt engineering 1. LLM 발전 과정 (1) LLM 이전의 언어모델 Statistical language models (SLM)통계적 학습 방법 기반n-gram 모델, Hidden Markov Model (HMM) Neural language models (NLM) RNN, LSTM, Seq2Seq, Transformer 특정 데이터로 훈련된 후 일정한 하나의 task에서만 사용 ..

각 리뷰들에 대하여 긍정/부정/중립 감정을 라벨링하는 감정분석을 진행한다. 감정분석 모델을 선택하는 과정에서 시도해본 KOTE를 활용한 fine-tuning 모델에 대해 정리해본다. 1. KOTE 2. 논문 리뷰 : User Guide for KOTE3. pre-trained KcELECTRA + KOTE fine-tuning 4. 감정분석 결과 1. KOTE 1) KOTE (Korean Online That-gul Emotions) 데이터셋 - 서울대학교 심리학과 연구실에서 개발한 한국어 감정 데이터셋 - 한국어 텍스트 내 감정을 43개로 분류한 후 자체적으로 수집한 온라인 댓글 데이터에 대하여 라벨링 2) KOTE fine-tuning 모델 - KcELECTRA를 pre-trained 모..

각 리뷰들에 대하여 긍정/부정/중립 감정을 라벨링하는 감정분석을 진행하고자 한다. 이때 감정분석 모델을 사용하는 과정에서 학습한 ELECTRA와 Korean Pre-trained Language Models에 대해 정리해본다. 1. ELECTRA2. 논문 리뷰3. KcBERT & KcELECTRA 4. KoBERT & KoELECTRA 1. ELECTRA- Google에서 2020년 발표한 "ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators" 논문에서 제안된 모델 - Efficiently Learning an Encoder that Classifies Token Replacements Accurately - 작은 ..

수집한 마켓컬리 리뷰 데이터에 대해 전처리를 진행한 과정을 정리해본다. 1. kiwipiepy 형태소 분석기 2. PyKoSpacing 3. 띄어쓰기 교정 과정 ✅ 현재 dataframe '국 · 탕 · 찌개' 카테고리 내 상품 목록 '국 · 탕 · 찌개' 카테고리 상품의 리뷰 목록 ✅ 전체 전처리 과정 → 결측치 제거 : review 열에 존재하는 5개의 결측치 제거→ 중복값 제거 : 3181개의 중복되는 리뷰 제거 (동일인이 동일한 내용으로 이중 작성한 리뷰) → 한국어 리뷰만 사용 : 아예 영어로만 쓰여진 826개의 리뷰들을 제거 → 정규 표현식으로 특수문자 + 이모티콘 제거 ① r"[^가-힣A-Za-z0-9\w\s]" : 한국어, 영어, 숫자, 띄어쓰기, 줄바꿈을..

DeepLearning.AI(Beta)에서 무료로 공개하고 있는 "ChatGPT Prompt Engineering for Developers" 강의를 수강하며 프롬프트 엔지니어링에 대해 학습한 과정을 정리한다. 1. GPT API Request / Response 형식 2. 파이썬에서 API 불러오기 3. Prompting Principles4. Iterative Prompt Development5. 프롬프트 엔지니어링 예시 1. GPT API Request / Response 형식 1) GPT-4 API Request Schema - from : GPT-4 API Reference Guide - GPT 모델 불어오는 과정{ "model": "gpt-4", "messages": [ ..

프로젝트 과정에서 활용할 수 있는 프롬프트 엔지니어링에 대하여 개념과 다양한 구현 기법, 작성 예시에 대해 공부해본다. 1. 프롬프트 엔지니어링 2. 프롬프트 엔지니어링 예시 1. 프롬프트 엔지니어링 - AI가 원하는 결과를 생성하도록 가이드하는 최적의 프롬프트를 설계하는 과정 LLM에서 원하는 결과를 얻기 위해 프롬프트를 정교하게 최적화하는 과정 - 프롬프트 엔지니어링을 통해 다양한 종류의 task에서 LLM의 역량을 향상시킬 수 있음 복잡한 task에서도 hallucination과 같은 오류를 해소하는데 기여 - AI의 성능은 프롬프트의 퀄리티에 큰 영향을 받기 때문에 프롬프트를 잘 설계하는 것이 AI를 효과적으로 쓰는 것과 직결됨 - 프롬프트 엔지니어는 AI가 의도치 않거나 엉뚱한 출..

데이터 수집을 위해 마켓컬리 리뷰 데이터의 특성을 분석하고 리뷰를 크롤링한 과정을 정리해본다. 1. 마켓컬리 리뷰 데이터 2. 크롤링 과정 1. 마켓컬리 리뷰 데이터 1) 마켓컬리의 특성 ✅ 마켓컬리를 분석 대상으로 선택한 이유 ① 마켓컬리 사용자들의 특성 상품위원회를 통한 고품질 상품 선별, 업계 최초로 신선제품 새벽배송 등 품질이 좋고 신선한 상품을 제공하기 위한 시스템을 구축 유명한 맛집의 시그니처 메뉴나 유명 셰프와의 콜라보 상품을 독점적으로 판매 이로 인해 좋은 품질의 프리미엄 식품을 구매할 수 있다는 브랜드 이미지가 확립 => 음식에 관심이 많고, 음식에 진심인 사용자들이 많음, 먹잘알들의 성지 => 다른 쇼핑몰에 비해 상품의 맛과 품질에 대한 구체적인 리뷰를 얻을 수 있을 것으로 기대..