working_helen
[R로 하는 통계분석] Bootstrap 신뢰구간 추정 본문
1. Bootstrap
2. R 코드로 구현하기
1. Bootstrap
population → original sample → bootstrap smaples → bootstrap distribution
- resampling from original sample without replacement
- 현재 가지고 있는 original sample에서 복원추출을 통해 동일한 크기의 bootstrap samples를 생성
- bootstrap samples에서 원하는 통계량(statistics)를 계산하여 bootstrap distribution를 생성
✅ origianl sample에서 bootstraping한 결과가
population에서 random smapling한 결과를 잘 근사한다!
bootstrap distribution으로 sample statistics를 추정하는 과정
≒ sample distribution으로 population statistics를 추정하는 과정
✏️ bootstrap을 하는 이유
= smaple statictics의 분산을 추정하기 위하여
- original sample의 수가 부족하거나 population에서 sampling이 어려운 경우 sample distribution을 확보할 수 없게 된다. 따라서 sample로부터 statistics을 계산하더라도 이 값이 얼마나 불확실한지(분산이 얼마인지), 신뢰구간은 어떻게 되는지 등을 확인할 수 없다.
- bootstrap distribution에서 구한 통계량의 분산은 sample distribution의 분산을 근사하기 때문에 sample statistics의 분산을 bootrap samples에서 구한 분산으로 추정할 수 있다. 즉 bootstrap distribution를 사용함으로써 sample statictics의 분산 및 신뢰구간 추정이 가능해진다.
2. R 코드로 구현하기
예시1) 표본평균 추정량 신뢰구간 구하기
- bootstrap distribution이 정규 분포를 따른다고 가정 (normal approximation)
- original sample에서 표본평균 추정량 구하기
- bootstrap samples의 크기는 original sample과 동일하게 설정
- 방법 1 : `map_dfr` + `slice_sample` 함수 이용
- 방법 2 : `boot` package 사용
- 방법 3 : for문 이용
- 3가지 방법으로 구한 bootstrap 신뢰구간의 비교
예시 2) 회귀계수 추정량 신뢰구간 구하기
- bootstrap distribution이 정규 분포를 따른다고 가정 (normal approximation)
- original sample에서 회귀모델을 적합해 β 추정량 구하기
- bootstrap samples의 크기는 original sample과 동일하게 설정
- 방법 1 : `map_dfr` + `slice_sample` 함수 이용
- 방법 2 : `boot` package 사용
- 방법 3 : for문 이용
- 3가지 방법으로 구한 bootstrap 신뢰구간의 비교
reference
https://tiabet0929.tistory.com/m/30
https://modern-manual.tistory.com/entry/Bootstrap-sampling-Bootstrapping-%EB%B6%80%ED%8A%B8%EC%8A%A4%ED%8A%B8%EB%9E%A9-%EC%83%98%ED%94%8C%EB%A7%81-%EC%89%BD%EA%B2%8C-%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0
'교내 수업 > R 통계분석' 카테고리의 다른 글
[R로 하는 통계분석] Piecewise polynomial regression, Splines (0) | 2024.11.25 |
---|---|
[R로 하는 통계분석] Classification 모델 적합과 평가 (0) | 2024.11.20 |
[R로 하는 통계분석] Linear Regression feature selection (0) | 2024.11.09 |
[R로 하는 통계분석] Linear Regression / GLM (0) | 2024.11.03 |
[R로 하는 통계분석] Data Visualization (0) | 2024.11.02 |