목록2023/08/01 (2)
working_helen
모델링 과정에서 학습한 내용 중 불균형 데이터 처리 방법에 대해 공부해본다. 1. 데이터 불균형 문제 2. Under Sampling 3. Over Sampling 4. SMOTH 5. 파이썬 코드 1. 데이터 불균형 문제 - 머신러닝 분류 문제는 새로운 데이터가 어떤 범주에 속하는지 판단하는 것을 목표로 한다. - 하지만 현실의 많은 데이터는 각 범주의 비율이 불균형한 경우가 많다. - 데이터의 불균형은 머신러닝 학습에 영향을 주며, 특히 적은 비율을 차지하는 소수 범주가 관심 대상인 경우 데이터의 불균형을 해소한 후 학습을 진행해야 한다. - 예를 들어 여성이 10%, 남성이 90%인 학습 데이터로 사용한다면, 다수 집단인 남성에 속할 것이라 예측하는 것이 맞을 확률이 높기 때문에 소수 집단인 여성을..
1. 콘텐츠 기반 필터링 2. 콘텐츠 기반 필터링 과정 3. 콘텐츠 기반 필터링 장단점 4. Pandora 음악 추천시스템 - 콘텐츠 기반 필터링 사례 5. 카카오 페이지 추천시스템 - 콘텐츠 기반 필터링 사례 1. 콘텐츠 기반 필터링(Content-Based Filtering, CBF) : 사용자가 선호하거나 사용한 적 있는 아이템과 비슷하고 관련된 아이템으로 추천하는 추천 시스템 방법이다. 사용자의 과거 사용 데이터를 기반으로 해당 사용자가 좋아할 법한 콘텐츠(content)를 가지고 있는 유사한 새로운 아이템을 찾아 추천한다. 다루는 문제 : 개별 사용자마다의 아이템 호불호 분류 문제 사용 데이터 : 사용자의 과거 아이템 사용 이력 + 각 아이템의 특징 정보(콘텐츠 content) 제시하는 답 : ..