목록교내 수업/R 통계분석 (5)
working_helen
1. Logistic regression2. LDA3. QDA4. Naive Bayes model5. classification model evaluation 1. Logistic Regression: Binary Classification 반응변수 Y의 class가 0 또는 1 - q = P(Y=1) = E(Y) f(q) = logit(q) = log(q/(1- q)) = log(odds ratio) = Xβ- 주어진 x에 대한 결과 Y가 1이 될 확률의 예측값을 계산 예측된 확률에 적절한 threshold를 사용해 0 또는 1로 분류 (보통 0.5를 threshold로 사용) - β = logit(P(Y=1))의 변화량 = log(odds ratio)의 변화량 exp(β) = odds..
1. linear model fitting method2. subset selection 3. subset selection R 코드로 구현하기4. regularization 5. regularization R 코드로 구현하기 1. linear model fitting method - p개의 설명변수 X, 반응변수 Y - 기본적으로 linear model은 LSE(least square estimation) 방법으로 회귀계수 추정- 관측치 수가 충분히 많지 않거나 설명변수가 너무 많은 경우, 설명변수를 너무 많이 포함하면 과적합이 일어나고 model complexity가 증가 - LSE 대신 다른 model fitting 방법을 사용 subset selection : 전체 변수 중 일부만 사..
1. Generalized Linear Model(1) Logistic Regression(2) Poisson Regression(3) Negative Binomial Regression(4) Zero-inflated Poisson Regression 2. R 코드로 구현하기 1. Generalized Linear Model (GLM)Linear regression model은 선형성, 정규성, 등분산성, 독립성을 가정반응변수 Y가 정규분포를 따른다설명변수 X와 Y가 선형 관계에 있다 GLM= Linear regression model의 일반화= link function을 사용함으로써 더 다양한 종류의 분포를 따르는 Y를 X들 간 선형결합으로 표현할 수 있는 모델 Y가 정규분포를 포함하는 지수족(..
1. Bootstrap 2. R 코드로 구현하기 1. Bootstrap population → original sample → bootstrap smaples → bootstrap distribution - resampling from original sample without replacement - 현재 가지고 있는 original sample에서 복원추출을 통해 동일한 크기의 bootstrap samples를 생성 - bootstrap samples에서 원하는 통계량(statistics)를 계산하여 bootstrap distribution를 생성 ✅ origianl sample에서 bootstraping한 결과가 population에서 random smapling한 결과를 잘 근..
x - y 변수 종류에 따른 시각화 그래프 종류 Response (y)Explanatory (x)형태 Plot TypeR Function Numeric 연속형 x의 분포, y는 count/densityHistogram, Density plot `geom_histogram()`, `geom_density()` Categorical범주형 x의 분포, y는 count/propBarplot `geom_bar()` `geom_col()` NumericNumeric 연속형 x와 연속형 y의 분포산점도, 회귀선, 꺾은선 그래프, 면적 그래프`geom_point()`, `geom_smooth`, `geom_line`, `geom_bin2d()`Categorical Categorical 범주형 x와 범주형 y의 분..