목록2023/08 (26)
working_helen
1. 협업 필터링 2. 협업 필터링 과정 3. 협업 필터링 종류 1) Memory-based CF 2) Model-based CF 3) Hybrid CF 4) User-based CF 5) Model based CF 4. 행렬 분해 5. 행렬 분해 장단점 1. 협업 필터링(Collaborative Filtering CF) : 구매 이력, 평가 점수(후기)와 같은 사용자들의 행동 데이터를 기반으로 사용자 간 유사성을 분석하여 아이템을 추천하는 방법이다. 유사한 행동 패턴을 보이는 = 비슷한 관심사를 보이는 사용자들에게 같은 아이템을 추천해준다. CF는비슷한 취향을 가진 사용자들은 어떠한 아이템에 대해 비슷한 선호도를 가질 것이라는 가정 하에 이루어진다. 다루는 문제 : 개별 사용자마다의 아이템 호불호 분류..
1. 타겟 데이터 2. 데이터 수집 과정 1. 타겟 데이터 - 교보문고 4가지 분야 베스트셀러 도서 각 1000권씩 > 4000권 데이터 - 소설, 자기계발, 경제/경영, 인문 분야 - 교보문고 '키워드 픽' + '책 소개' 텍스트 크롤링 - '키워드 픽'은 그대로 사용 - '책 소개' 텍스트에서 핵심어 추출 진행 2. 데이터 수집 과정 도구 : Selenium을 이용한 크롤링 step 1. 베스트셀러 1000권 도서 링크 받아오기 - 분야별 베스트셀러 페이지 접속 - 한 페이지당 20권씩 보여주며, 1~50장까지 존재 (1000권) - find_element를 이용해 20권 도서 page_links 원소 추출 - get_attribute('href')를 이용해 각 도서의 page url을 추출한 후, ..
보호되어 있는 글입니다.
데이터 수집 단계에서 학습한 내용 중 세번째로 위경도 기반 지도상 반경 내 데이터를 수집하는 방법에 대해 공부해본다. 1. Haversine 하버사인 공식이란? 2. Haversine 하버사인 공식 코드 1. Haversine 하버사인 공식이란? - 구면에서 두 점 사이의 최단 거리 구할 때 쓰이는 공식 - 평면에서 두 지점을 이은 직선이 최단거리인 반면, 구면에선 곡률의 영향으로 인해 단순히 두 지점을 직선 경로가 최단거리가 되지 않는다. 원의 일부, 즉 호 모양의 경로가 최단거리가 된다. - 지도 상의 두 위치는 구형의 지구 위의 두 지점이므로 구면에서의 최단거리 공식을 통해 두 지점 간 거리를 구한다. - 하버사인 공식은 두 지점의 위도, 경도, 지구 반지름을 이용해 두 지점 간 호의 길이를 계산한..
모델링 과정에서 학습한 내용 중 불균형 데이터 처리 방법에 대해 공부해본다. 1. 데이터 불균형 문제 2. Under Sampling 3. Over Sampling 4. SMOTH 5. 파이썬 코드 1. 데이터 불균형 문제 - 머신러닝 분류 문제는 새로운 데이터가 어떤 범주에 속하는지 판단하는 것을 목표로 한다. - 하지만 현실의 많은 데이터는 각 범주의 비율이 불균형한 경우가 많다. - 데이터의 불균형은 머신러닝 학습에 영향을 주며, 특히 적은 비율을 차지하는 소수 범주가 관심 대상인 경우 데이터의 불균형을 해소한 후 학습을 진행해야 한다. - 예를 들어 여성이 10%, 남성이 90%인 학습 데이터로 사용한다면, 다수 집단인 남성에 속할 것이라 예측하는 것이 맞을 확률이 높기 때문에 소수 집단인 여성을..
1. 콘텐츠 기반 필터링 2. 콘텐츠 기반 필터링 과정 3. 콘텐츠 기반 필터링 장단점 4. Pandora 음악 추천시스템 - 콘텐츠 기반 필터링 사례 5. 카카오 페이지 추천시스템 - 콘텐츠 기반 필터링 사례 1. 콘텐츠 기반 필터링(Content-Based Filtering, CBF) : 사용자가 선호하거나 사용한 적 있는 아이템과 비슷하고 관련된 아이템으로 추천하는 추천 시스템 방법이다. 사용자의 과거 사용 데이터를 기반으로 해당 사용자가 좋아할 법한 콘텐츠(content)를 가지고 있는 유사한 새로운 아이템을 찾아 추천한다. 다루는 문제 : 개별 사용자마다의 아이템 호불호 분류 문제 사용 데이터 : 사용자의 과거 아이템 사용 이력 + 각 아이템의 특징 정보(콘텐츠 content) 제시하는 답 : ..