목록2024/09/05 (1)
working_helen

수집한 마켓컬리 리뷰 데이터에 대해 전처리를 진행한 과정을 정리해본다. 1. kiwipiepy 형태소 분석기 2. PyKoSpacing 3. 띄어쓰기 교정 과정 ✅ 현재 dataframe '국 · 탕 · 찌개' 카테고리 내 상품 목록 '국 · 탕 · 찌개' 카테고리 상품의 리뷰 목록 ✅ 전체 전처리 과정 → 결측치 제거 : review 열에 존재하는 5개의 결측치 제거→ 중복값 제거 : 3181개의 중복되는 리뷰 제거 (동일인이 동일한 내용으로 이중 작성한 리뷰) → 한국어 리뷰만 사용 : 아예 영어로만 쓰여진 826개의 리뷰들을 제거 → 정규 표현식으로 특수문자 + 이모티콘 제거 ① r"[^가-힣A-Za-z0-9\w\s]" : 한국어, 영어, 숫자, 띄어쓰기, 줄바꿈을..
deep daiv./NLP project
2024. 9. 5. 14:16