working_helen

[R로 하는 통계분석] Data Visualization 본문

교내 수업/R 통계분석

[R로 하는 통계분석] Data Visualization

HaeWon_Seo 2024. 11. 2. 22:29


x - y 변수 종류에 따른 시각화 그래프 종류 

Response (y) Explanatory (x) 형태  Plot Type R Function
  Numeric  연속형 x의 분포, y는 count/density Histogram, Density plot  `geom_histogram()`, `geom_density()`
  Categorical 범주형 x의 분포, y는 count/prop Barplot  `geom_bar()` `geom_col()`  
Numeric Numeric   연속형 x와 연속형 y의 분포 산점도, 회귀선, 꺾은선 그래프, 면적 그래프 `geom_point()`, `geom_smooth`, `geom_line`, `geom_bin2d()`
Categorical   Categorical  범주형 x와 범주형 y의 분포 Mosaic plot, Facets으로 각 plots 간 구분 `geom_mosaic()`  

 

ggplot2 pakage 속 함수들과 ggplot2::mpg 데이터셋 이용 

# ggplot으로 그림 그리는 코드의 템플릿
ggplot(data = <DATA>) + 
  <GEOM_FUNCTION>(mapping = aes(<MAPPINGS>))

 

 

 

geom_point 

- 연속형 x와 연속형 y 간 산점도 그리기

- 전체 점의 색, 사이즈, 모양, 투명도 조절하려면 `aes()` 밖에서 지정 

 

- 특정 열의 값에 따라 다르게 점의 색, 사이즈, 모양, 투명도로 표현하려면 `aes()`안에서 지정 

 

 

 

geom_smooth / geom_line

- `geom_smooth` : 산점도를 기반으로 추세선을 그리는 용도 

  `geom_line` : 데이터 점을 이어 꺾은선 그래프를 그리는 용도

- `method = "lm"`으로 설정하면 선형 회귀선

- `se = FALSE`로 신뢰구간(회색 영역) 미표현 

 

 

 

geom_bar / geom_col

- categorical x의 분포 확인   
- `geom_bar` : default는 count를 사용하여 막대그래프를 그림 
  `geom_col` : y축 값을 직접 지정, x 범주별 y값을 막대그래프로 그림 

 

(1) y축을 count로 하는 그래프

 

 

(2) y축을 확률로 하는 그래프 

- `y = after_stat(prop)`를 이용해 확률을 y축으로 설정 
- `group=1` 지정 → 전체 데이터셋을 한 그룹으로 간주해 확률 계산하도록 설정, 전체 확률 합이 1이 되도록 설정 

 

(3) y축을 어떠한 연속형 변수의 값으로 하는 그래프 

- `geom_bar`는 `stat = "identity"` 인자를 넣어 사용자가 지정한 y 변수의 값을 막대 높이로 사용하도록 설정 

 

- `geom_col`은 사용할 y값을 바로 지정  

 

- 막대 안의 색상을 바꾸려면 `fill`로 설정 
- 막대의 경계선 색을 바꾸려면 `color`로 설정

 

- `position` 속성으로 막대 표현 방식을 결정

① position = "identity"

② position = "fill"

③ position = "dodge"

 

 

 

geom_histogram / geom_density 

- numeric x의 분포 확인 

- `geom_histogram` : default는 count를 사용하여 히스토그램을 그림

- `binwidth`로 히스토그램 한 칸의 길이 지정 

 

- `geom_density` : 히스토그램으로부터 밀도 함수를 그림

- 'kernel'로 함수 모양을 결정