working_helen

[데이터 수집] 데이터 수집 Workflow 본문

deep daiv./추천시스템 toy project

[데이터 수집] 데이터 수집 Workflow

HaeWon_Seo 2023. 8. 7. 19:57

1. 타겟 데이터

2. 데이터 수집 과정


1. 타겟 데이터

교보문고 분야별 베스트셀러 도서 확인 웹페이지

- 교보문고 4가지 분야 베스트셀러 도서 각 1000권씩 > 4000권 데이터

- 소설, 자기계발, 경제/경영, 인문 분야

- 교보문고 '키워드 픽' +  '책 소개' 텍스트 크롤링

- '키워드 픽'은 그대로 사용

- '책 소개' 텍스트에서 핵심어 추출 진행

 

 

2. 데이터 수집 과정

도구 : Selenium을 이용한 크롤링

 

step 1. 베스트셀러 1000권 도서 링크 받아오기

- 분야별 베스트셀러 페이지 접속

- 한 페이지당 20권씩 보여주며, 1~50장까지 존재 (1000권)

 

- find_element를 이용해 20권 도서 page_links 원소 추출

- get_attribute('href')를 이용해 각 도서의 page url을 추출한 후, book_page_urls 리스트에 저장

- find_element 와 send_keys(Keys.ENTER)를 이용해 다음 페이지로 이동

(Selenium 이전 포스트 참고 2023.07.04 - [TAVE 프로젝트] - [데이터 수집] selenium 웹데이터 크롤링)

 

 

step 2. 각 도서 링크에서 정보 크롤링

- step 1에서 얻은 book_page_urls 리스트를 따라 각 도서 url에 접속

- find_element로 '제목' 요소를 찾고, title.text로 제목을 추출해 book_titles 리스트에 저장
- find_element로 '키워드 픽' 요소를 찾고, keyword.text로 각 키워드를 추출해 book_keyPicks 리스트에 저장
- find_element로 '책 소개' 요소를 찾고, story.text로 책 소개 텍스트를 추출해 book_stories에 저장

- 세 리스트를 통합한 Dataframe book_df을 만들고 csv로 저장

키워드 픽
책 소개

step 3. 데이터 전처리

- '키워드픽'과 '책소개' 결측치가 있는 도서 제거

- '키워드'로 각 도서 분야 이름도 포함시켜 분야 정보가 들어가도록 만듬

 

 

 

 

 

Jupyter Notebook

교보문고 웹 크롤링 코드