목록전체 글 (96)
working_helen
1. GAM (Generalized Additive Models)2. GAM R 코드로 구현하기 1. GAM (Generalized Additive Models)" 각 feature에 대한 비선형 함수를 선형결합 "= 각각의 설명변수 xj에 대해선 비선형 함수 fj(xij)를 적합 + fj(xij)들을 선형결합 - 각 fj는 glm, spline, identity 등 단일변수로 y를 예측하는 어떠한 모델이든 사용 가능 - linear additivity 유지함으로써 fj를 단순히 선형결합하여 최종 모델 적합 GAM regression 모델링 예시 `year` : natural spline, 자유도 4`age` : natural spline, 자유도 5 `education` : step function..
1. Piecewise polynomial regression2. Spline3. Spline R 코드로 구현하기 1. Piecewise polynomial regression(1) piecewise polynomial regression - 설명변수 X를 여러 개의 구간을 분할하고, 각 구간마다 별도의 다항회귀모형을 적합하는 방법 - 구간마다 각각 LSE를 적용해 회귀계수 β를 추정 - knots : 회귀모형이 바뀌는 X의 지점, K개의 knots가 있으면 K+1개의 구간이 생성 (2) basis function- piecewise polynomial regression은 basis function approach의 일종- 이미 알고있는 basis function(기저 함수) K개의 선형결합으..
1. Logistic regression2. LDA3. QDA4. Naive Bayes model5. classification model evaluation 1. Logistic Regression: Binary Classification 반응변수 Y의 class가 0 또는 1 - q = P(Y=1) = E(Y) f(q) = logit(q) = log(q/(1- q)) = log(odds ratio) = Xβ- 주어진 x에 대한 결과 Y가 1이 될 확률의 예측값을 계산 예측된 확률에 적절한 threshold를 사용해 0 또는 1로 분류 (보통 0.5를 threshold로 사용) - β = logit(P(Y=1))의 변화량 = log(odds ratio)의 변화량 exp(β) = odds..
각 리뷰들에 대하여 긍정/부정/중립 감정을 라벨링하는 감정분석을 진행한다. LLM 프롬프트 엔지니어링을 사용해 감정분석을 진행한 과정에 대해 정리해본다. 1. Llama few-shot prompting2. 감정분석 결과 ▶ KcELECTRA을 fine-tuning 모델을 활용한 리뷰 감정 분석 : ELECTRA 모델에서 감정분석 성능이 좋지 않았음 → 모델 크기가 더 큰 LLM에 해당하는 Llama 사용 시도 2024.09.06 - [deep daiv./NLP project] - [리뷰 감정 분석] KOTE 논문 리뷰 / KOTE fine-tuning 모델을 활용한 감정 분석 [감정 분석] 한국어 감정 분석 데이터셋 KOTE 논문 리뷰 / Python에서 KOTE 모델 사용하기마켓컬리 ..
앞서 키워드 추출을 통해 선정한 6가지 리뷰 내용 카테고리를 활용한다. 프롬프트 엔지니어링을 사용해 각 리뷰마다 내용에서 6가지 카테고리 중 해당되는 일부분이 있다면 이를 태깅하여 데이터셋으로 저장하는 과정을 진행한다. 1. GPT API few-shot prompting2. 카테고리 태깅 결과 📢 카테고리 태깅 과정, 감정분석, 요약 과정- Llama의 수행 시간 및 코랩 GPU 제한, GPT API 호출 비용으로 인해 150만개 리뷰 전체를 다 사용 불가 - 23년도 이후 & 4단어 이상 리뷰들만 선택 → ’도움돼요’ 개수가 많은 순, 최신순으로 정렬 후 각 상품마다 상위 50개의 리뷰만 사용 1. GPT API few-shot prompting✅ GPT API few-shot prom..
1. linear model fitting method2. subset selection 3. subset selection R 코드로 구현하기4. regularization 5. regularization R 코드로 구현하기 1. linear model fitting method - p개의 설명변수 X, 반응변수 Y - 기본적으로 linear model은 LSE(least square estimation) 방법으로 회귀계수 추정- 관측치 수가 충분히 많지 않거나 설명변수가 너무 많은 경우, 설명변수를 너무 많이 포함하면 과적합이 일어나고 model complexity가 증가 - LSE 대신 다른 model fitting 방법을 사용 subset selection : 전체 변수 중 일부만 사..
1. Generalized Linear Model(1) Logistic Regression(2) Poisson Regression(3) Negative Binomial Regression(4) Zero-inflated Poisson Regression 2. R 코드로 구현하기 1. Generalized Linear Model (GLM)Linear regression model은 선형성, 정규성, 등분산성, 독립성을 가정반응변수 Y가 정규분포를 따른다설명변수 X와 Y가 선형 관계에 있다 GLM= Linear regression model의 일반화= link function을 사용함으로써 더 다양한 종류의 분포를 따르는 Y를 X들 간 선형결합으로 표현할 수 있는 모델 Y가 정규분포를 포함하는 지수족(..
1. Bootstrap 2. R 코드로 구현하기 1. Bootstrap population → original sample → bootstrap smaples → bootstrap distribution - resampling from original sample without replacement - 현재 가지고 있는 original sample에서 복원추출을 통해 동일한 크기의 bootstrap samples를 생성 - bootstrap samples에서 원하는 통계량(statistics)를 계산하여 bootstrap distribution를 생성 ✅ origianl sample에서 bootstraping한 결과가 population에서 random smapling한 결과를 잘 근..
x - y 변수 종류에 따른 시각화 그래프 종류 Response (y)Explanatory (x)형태 Plot TypeR Function Numeric 연속형 x의 분포, y는 count/densityHistogram, Density plot `geom_histogram()`, `geom_density()` Categorical범주형 x의 분포, y는 count/propBarplot `geom_bar()` `geom_col()` NumericNumeric 연속형 x와 연속형 y의 분포산점도, 회귀선, 꺾은선 그래프, 면적 그래프`geom_point()`, `geom_smooth`, `geom_line`, `geom_bin2d()`Categorical Categorical 범주형 x와 범주형 y의 분..
마켓컬리 '국 · 탕 · 찌개' 상품들의 리뷰 텍스트에서부터 키워드를 추출한 후 리뷰 내용을 분류할 카테고리를 선정하는 과정을 진행한다. 리뷰 텍스트를 어떤 주제 카테고리로 클러스터링할 수 있는지 파악한다. 1. Llama few-shot prompting2. 키워드 추출 결과 1. Llama few-shot prompting✅ Llama few-shot prompting으로 마켓컬리 리뷰 내용의 키워드 추출 시도 LLM에게 요구할 task- 주어진 리뷰 전문으로부터 주요 키워드를 추출하는 task- 각 리뷰마다 키워드 추출을 진행 → 모든 키워드 추출 결과를 합쳐 마켓컬리 리뷰 속 키워드 추출 결과로 활용 사용 데이터- 길고 자세하게 작성된 리뷰들의 키워드는 짧고 간단한 리뷰들의 키워드를 포..