working_helen
[R로 하는 통계분석] Data Visualization 본문
x - y 변수 종류에 따른 시각화 그래프 종류
Response (y) | Explanatory (x) | 형태 | Plot Type | R Function |
Numeric | 연속형 x의 분포, y는 count/density | Histogram, Density plot | `geom_histogram()`, `geom_density()` | |
Categorical | 범주형 x의 분포, y는 count/prop | Barplot | `geom_bar()` `geom_col()` | |
Numeric | Numeric | 연속형 x와 연속형 y의 분포 | 산점도, 회귀선, 꺾은선 그래프, 면적 그래프 | `geom_point()`, `geom_smooth`, `geom_line`, `geom_bin2d()` |
Categorical | Categorical | 범주형 x와 범주형 y의 분포 | Mosaic plot, Facets으로 각 plots 간 구분 | `geom_mosaic()` |
ggplot2 pakage 속 함수들과 ggplot2::mpg 데이터셋 이용
# ggplot으로 그림 그리는 코드의 템플릿
ggplot(data = <DATA>) +
<GEOM_FUNCTION>(mapping = aes(<MAPPINGS>))
geom_point
- 연속형 x와 연속형 y 간 산점도 그리기
- 전체 점의 색, 사이즈, 모양, 투명도 조절하려면 `aes()` 밖에서 지정

- 특정 열의 값에 따라 다르게 점의 색, 사이즈, 모양, 투명도로 표현하려면 `aes()`안에서 지정

geom_smooth / geom_line
- `geom_smooth` : 산점도를 기반으로 추세선을 그리는 용도
`geom_line` : 데이터 점을 이어 꺾은선 그래프를 그리는 용도
- `method = "lm"`으로 설정하면 선형 회귀선
- `se = FALSE`로 신뢰구간(회색 영역) 미표현

geom_bar / geom_col
- categorical x의 분포 확인
- `geom_bar` : default는 count를 사용하여 막대그래프를 그림
`geom_col` : y축 값을 직접 지정, x 범주별 y값을 막대그래프로 그림
(1) y축을 count로 하는 그래프

(2) y축을 확률로 하는 그래프
- `y = after_stat(prop)`를 이용해 확률을 y축으로 설정
- `group=1` 지정 → 전체 데이터셋을 한 그룹으로 간주해 확률 계산하도록 설정, 전체 확률 합이 1이 되도록 설정

(3) y축을 어떠한 연속형 변수의 값으로 하는 그래프
- `geom_bar`는 `stat = "identity"` 인자를 넣어 사용자가 지정한 y 변수의 값을 막대 높이로 사용하도록 설정

- `geom_col`은 사용할 y값을 바로 지정

- 막대 안의 색상을 바꾸려면 `fill`로 설정
- 막대의 경계선 색을 바꾸려면 `color`로 설정

- `position` 속성으로 막대 표현 방식을 결정

① position = "identity"

② position = "fill"

③ position = "dodge"

geom_histogram / geom_density
- numeric x의 분포 확인
- `geom_histogram` : default는 count를 사용하여 히스토그램을 그림
- `binwidth`로 히스토그램 한 칸의 길이 지정

- `geom_density` : 히스토그램으로부터 밀도 함수를 그림
- 'kernel'로 함수 모양을 결정

'교내 수업 > R 통계분석' 카테고리의 다른 글
[R로 하는 통계분석] Piecewise polynomial regression, Splines (0) | 2024.11.25 |
---|---|
[R로 하는 통계분석] Classification 모델 적합과 평가 (0) | 2024.11.20 |
[R로 하는 통계분석] Linear Regression feature selection (0) | 2024.11.09 |
[R로 하는 통계분석] Linear Regression / GLM (0) | 2024.11.03 |
[R로 하는 통계분석] Bootstrap 신뢰구간 추정 (0) | 2024.11.03 |