목록2024/09 (4)
working_helen
각 리뷰들에 대하여 긍정/부정/중립 감정을 라벨링하는 감정분석을 진행한다. 감정분석 모델을 선택하는 과정에서 시도해본 KOTE를 활용한 fine-tuning 모델에 대해 정리해본다. 1. KOTE 2. 논문 리뷰 : User Guide for KOTE3. pre-trained KcELECTRA + KOTE fine-tuning 4. 감정분석 결과 1. KOTE 1) KOTE (Korean Online That-gul Emotions) 데이터셋 - 서울대학교 심리학과 연구실에서 개발한 한국어 감정 데이터셋 - 한국어 텍스트 내 감정을 43개로 분류한 후 자체적으로 수집한 온라인 댓글 데이터에 대하여 라벨링 2) KOTE fine-tuning 모델 - KcELECTRA를 pre-trained 모..
각 리뷰들에 대하여 긍정/부정/중립 감정을 라벨링하는 감정분석을 진행하고자 한다. 이때 감정분석 모델을 사용하는 과정에서 학습한 ELECTRA와 Korean Pre-trained Language Models에 대해 정리해본다. 1. ELECTRA2. 논문 리뷰3. KcBERT & KcELECTRA 4. KoBERT & KoELECTRA 1. ELECTRA- Google에서 2020년 발표한 "ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators" 논문에서 제안된 모델 - Efficiently Learning an Encoder that Classifies Token Replacements Accurately - 작은 ..
수집한 마켓컬리 리뷰 데이터에 대해 전처리를 진행한 과정을 정리해본다. 1. kiwipiepy 형태소 분석기 2. PyKoSpacing 3. 띄어쓰기 교정 과정 ✅ 현재 dataframe '국 · 탕 · 찌개' 카테고리 내 상품 목록 '국 · 탕 · 찌개' 카테고리 상품의 리뷰 목록 ✅ 전체 전처리 과정 → 결측치 제거 : review 열에 존재하는 5개의 결측치 제거→ 중복값 제거 : 3181개의 중복되는 리뷰 제거 (동일인이 동일한 내용으로 이중 작성한 리뷰) → 한국어 리뷰만 사용 : 아예 영어로만 쓰여진 826개의 리뷰들을 제거 → 정규 표현식으로 특수문자 + 이모티콘 제거 ① r"[^가-힣A-Za-z0-9\w\s]" : 한국어, 영어, 숫자, 띄어쓰기, 줄바꿈을..
DeepLearning.AI(Beta)에서 무료로 공개하고 있는 "ChatGPT Prompt Engineering for Developers" 강의를 수강하며 프롬프트 엔지니어링에 대해 학습한 과정을 정리한다. 1. GPT API Request / Response 형식 2. 파이썬에서 API 불러오기 3. Prompting Principles4. Iterative Prompt Development5. 프롬프트 엔지니어링 예시 1. GPT API Request / Response 형식 1) GPT-4 API Request Schema - from : GPT-4 API Reference Guide - GPT 모델 불어오는 과정{ "model": "gpt-4", "messages": [ ..