목록교내 수업 (27)
working_helen
1. Logistic regression2. LDA3. QDA4. Naive Bayes model5. classification model evaluation 1. Logistic Regression: Binary Classification 반응변수 Y의 class가 0 또는 1 - q = P(Y=1) = E(Y) f(q) = logit(q) = log(q/(1- q)) = log(odds ratio) = Xβ- 주어진 x에 대한 결과 Y가 1이 될 확률의 예측값을 계산 예측된 확률에 적절한 threshold를 사용해 0 또는 1로 분류 (보통 0.5를 threshold로 사용) - β = logit(P(Y=1))의 변화량 = log(odds ratio)의 변화량 exp(β) = odds..
1. linear model fitting method2. subset selection 3. subset selection R 코드로 구현하기4. regularization 5. regularization R 코드로 구현하기 1. linear model fitting method - p개의 설명변수 X, 반응변수 Y - 기본적으로 linear model은 LSE(least square estimation) 방법으로 회귀계수 추정- 관측치 수가 충분히 많지 않거나 설명변수가 너무 많은 경우, 설명변수를 너무 많이 포함하면 과적합이 일어나고 model complexity가 증가 - LSE 대신 다른 model fitting 방법을 사용 subset selection : 전체 변수 중 일부만 사..
1. Generalized Linear Model(1) Logistic Regression(2) Poisson Regression(3) Negative Binomial Regression(4) Zero-inflated Poisson Regression 2. R 코드로 구현하기 1. Generalized Linear Model (GLM)Linear regression model은 선형성, 정규성, 등분산성, 독립성을 가정반응변수 Y가 정규분포를 따른다설명변수 X와 Y가 선형 관계에 있다 GLM= Linear regression model의 일반화= link function을 사용함으로써 더 다양한 종류의 분포를 따르는 Y를 X들 간 선형결합으로 표현할 수 있는 모델 Y가 정규분포를 포함하는 지수족(..
1. Bootstrap 2. R 코드로 구현하기 1. Bootstrap population → original sample → bootstrap smaples → bootstrap distribution - resampling from original sample without replacement - 현재 가지고 있는 original sample에서 복원추출을 통해 동일한 크기의 bootstrap samples를 생성 - bootstrap samples에서 원하는 통계량(statistics)를 계산하여 bootstrap distribution를 생성 ✅ origianl sample에서 bootstraping한 결과가 population에서 random smapling한 결과를 잘 근..
x - y 변수 종류에 따른 시각화 그래프 종류 Response (y)Explanatory (x)형태 Plot TypeR Function Numeric 연속형 x의 분포, y는 count/densityHistogram, Density plot `geom_histogram()`, `geom_density()` Categorical범주형 x의 분포, y는 count/propBarplot `geom_bar()` `geom_col()` NumericNumeric 연속형 x와 연속형 y의 분포산점도, 회귀선, 꺾은선 그래프, 면적 그래프`geom_point()`, `geom_smooth`, `geom_line`, `geom_bin2d()`Categorical Categorical 범주형 x와 범주형 y의 분..
Lecture : Machine LearningDate : week 11, 2024/05/16Topic : With Insufficient Data 1. data augmentation2. Self training3. Active learning 1. data augmentation (데이터 증강)- expand labeled train data- 기존 데이터셋을 활용해 추가 합성 데이터를 인위로 생성하는 기법 - 데이터 셋의 규모를 키워 모델을 훈련에 필요한 충분한 수의 데이터를 확보하기 위해 사용 - 데이터 증강은 사용하는 데이터의 종류에 따라 특성이 달라지며, 다양한 기법이 존재한다. 2024.01.06 - [deep daiv./추천시스템 프로젝트] - [text 감정 추출 모델] Data A..
Lecture : Machine LearningDate : week 11, 2024/05/13 Topic : Unsupervised learning 1. Unsupervised learning 2. Clustering 3. k-means4. GMM5. KDE 1. Unsupervised learning Supervised learningUnsupervised learningtraining datausing labeled datasetusing unlabeled datasettrainmodel learns a function to relatebetween attributes and labels pairsmodel learns a function that producesuseful labels for..
Lecture : Machine LearningDate : week 9, 2024/04/29Topic : Structured Classification 1. Markov chain & Markov model 2. Hidden Markov Model 3. Probability evaluation4. Optimal state sequence 1. Markov chain & Markov model 1) Markov chain(위키백과) 마르코프 연쇄(Markov chain)는 이산 시간 확률 과정이다. 마르코프 성질은 과거와 현재 상태가 주어졌을 때의 미래 상태의 조건부 확률 분포가 과거 상태와는 독립적으로 현재 상태에 의해서만 결정된다는 것을 뜻한다. 과거의 상태가 알려져 있더라도, 이는 미래 상태의..
Lecture : Media ComputationDate : week 9, 2024/04/29Topic : Processing User Input 1. 태그2. 다양한 user-interface 태그 3. User Feedback Form 실습 1. 태그- 입력된 여러 데이터를 한번에 서버로 전송해주는 기능을 수행 - form 태그의 다양한 attributeaction : form이 전송할 데이터를 받을 서버(url, 스트립트 파일) 지정accept-charset : form 전송시 사용될 문자 인코딩 지정method : 폼을 서버에 전송할 때 사용할 http 메소드를 지정 - 다양한 user-interaface 태그들(input, button, select 등)과 함께 사용됨 - 'requi..
Lecture : Machine Learning Date : week 7, 2024/04/18 Topic : Feature Selection 1. Feature selection 2. Wrapper method 3. Filter method 4. Embedded method 1. Feature selection - 모델 학습에 불필요하고 관계없는 feautre는 제거하고 중요한 feature만을 사용하여 학습시키는 것 - 기존 데이터에서 최적의 모델의 성능을 보여주는 일부 feature subset을 찾아내 학습시키는 것 - 모델 성능을 높일 수 있을 뿐만 아니라 학습에 필요한 메모리와 시간을 줄일 수 있다는 점에서 중요함 - 변수 선택 기법 Wrappers method : 모델이 가장 좋은 성능을 보이..