working_helen

[데이터 전처리] EDA 및 변수 선택 본문

TAVE/뿌스팅 project

[데이터 전처리] EDA 및 변수 선택

HaeWon_Seo 2023. 8. 7. 22:25

전처리 데이터를 바탕으로 EDA를 진행하고, 모델링에 포함할 변수를 논의한 과정을 정리해본다. 본 프로젝트에서는 변수의 개수가 많고, 상관관계와 VIF를 보았을 때 다중공선성 문제가 존재한다고 판단되어 변수 선택 + PCA 전처리 과정을 진행했다.

 

이상치 확인 => 변수 제거 없음

상관관계 확인 => 아래의 칼럼을 제거하기로 결정
['1년 생존율','5년 생존율','최근 30년 기준 평균영업기간', '주거인구','직장인구','반경500_대학개수','상권활성화지수등급','매출지수','인프라지수','가맹점지수','인구지수','금융지수']