목록deep daiv./추천시스템 project (8)
working_helen

Streamlit을 활용해 최종 서비스 웹페이지를 구축하고, 추가적으로 도서관 데이터 활용을 통해 공모전에 참여한 과정에 대해 알아본다. 1. Streamlit으로 웹페이지 구현 2. 국립중앙도서관 데이터 활용 콘텐츠 공모전 1. Streamlit으로 웹페이지 구현 : Streamlit을 활용해 '도서 맞춤형 음악 추천 서비스' 웹페이지 구현 1) 사용 파일 app.py : streamlit 파이썬 파일 fianl_data : 노래 전체 DB, af 기반/가사 기반 감정 확률 벡터 lyrics : 노래 전체 DB, 기존 노래 가사 + 영어로 번역한 가사 tweet_data_agumentation : 도서 설명 text 데이터를 text 감정 추출 모델의 input 형태로 변환하기 위한 학습 데이터 SVM..

최종 추천곡 플레이리스트를 작하는 과정에 대해 공부해본다. 1. 도서 데이터프레임 생성 2. 감정적 유사도 계산 1) audio feature 기반 감정 벡터 - 도서 설명 text 기반 감정 벡터 2) 노래 가사 기반 감정 벡터 - 도서 설명 text 기반 감정 벡터 3. 내용 유사도 계산 1) TF-IDF matrix 2) 노래 가사 키워드 벡터 - 도서 설명 text 키워드 벡터 4. 유사도 가중합을 통한 최종 플레이리스트 작성 1) 도서와 분위기가 유사한 추천곡 플레이리스트 2) 도서와 내용이 유사한 추천곡 플레이리스트 ※ 예시 도서 제목 : 참을 수 없는 존재의 가벼움 저자 : 밀란 쿤데라 교보문고 링크 : https://product.kyobobook.co.kr/detail/S000000619..

text 감정 추출 모델 학습 및 적용 과정에 대해 공부해본다. 1. text 감정 추출 SVM 모델 2. SVM 모델 적용 결과 1. text 감정 추출 SVM 모델 목표 : 주어진 text에 대하여 11가지 sentiment 각각에 매칭될 확률를 예측하는 모델 input : 임의의 text (텍스트 전처리를 거친 후) output : 길이 11의 감정 확률 벡터 1) 사용 데이터 tweet_data_agumentation.csv : 기존의 트위터 감정 데이터 tweet_emotions.csv에 대하여 텍스트 데이터 증강(EDA)를 진행한 데이터 2) SVM 모델 학습 ## `content`열의 text들 tf-idf 벡터화 from sklearn.feature_extraction.text import..

text 감정 추출 모델 구현 과정에서 학습한 Data Augmentation에 대해 공부해본다. 1. Data Augmentation 데이터 증강2. 학습 데이터 부족 문제 3. 학습 데이터 불균형 문제4. Back translation5. EDA (Easy Data Augmentation) 논문 1. Data Augmentation 데이터 증강1) Data Augmentation (위키백과) 데이터 증대(data augmentation) 또는 데이터 첨가, 데이터 증강은 주로 기계 학습을 위해 새로운 데이터를 첨가하거나, 수를 늘리는 기법이다. 과대표집(oversampling)과 관련이 있다. 기계 학습 모델을 훈련할 때 과적합을 줄이는 데에 도움이 된다. - 보유하고 있는 데이터를 활용해 추가 합..

text 감정 추출 모델 훈련 과정에서 진행한 텍스트 전처리와 구글 번역 API에 대해 공부해본다. 1. 텍스트 전처리 2. 토큰화 3. 정제 4. 정규화 5. Goolgetrans 번역 API 1. 텍스트 전처리 (Text preprocessing) - 자연어 처리 문제에서 분석 목적에 맞게 텍스트 데이터를 사전에 전처리하는 작업 - 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization) 3가지 과정으로 이루어진다. - NLTK (Natural Language Toolkik) : 영어 텍스트 전처리를 위한 Python의 자연어 처리 패키지 2. 토큰화 1) 토큰화(tokenization) - 주어진 코퍼스(corpus, 말뭉치)를 어떠한 작은 단위 토큰(toke..

앞서 학습한 k-means 군집화 알고리즘을 적용하여 Spotify 노래 데이터 clustering하는 과정에 대해 정리해본다. 본 프로젝트에서는 audio feature를 이용해 노래의 mood cluster를 구하는 과정을 진행했다. 참고한 이전 분석 자료 International Journal of Music Science, Technology and Art IJMSTA - Vol. 5 - Issue 1 - Janury 2023 ISSN 2612-2146 Pages: 13 Spotify Song Analysis by Statistical Machine Learning Authors: Federica Biazzo, Matteo Farné Categories: Journal Abstract - This..

Audio feature 군집화 과정에서 사용한 K-means 분류 모델에 대해 공부해본다. 1. K-means 1) K-means clustering 2) 분류 과정 3) 군집 개수 k 정하기 4) 초기 중심점 정하기 5) 분류 vs 군집화 6) 장점/단점 2. 성능 확인 1) 내부 평가 vs 외부 평가 2) silhouette score 3. 파이썬 코드 1. K-means 1) K-means clustering (위키백과) k-평균 알고리즘(K-means clustering algorithm)은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다. 입력 데이터를 n보다 작거나 같은 k개의 그룹으로 나누는데, 이 때 각 그룹은 클러스터를..

데이터 수집 단계에서 접한 다양한 도서 데이터와 Kakao Developers에 대해 공부해본다. 1. 국립중앙도서관 데이터 2. Kakao Developers 1. 국립중앙도서관 데이터 1) 국가서지 LOD - 국립중앙도서관에서 제공하는 공공 데이터 개방 서비스 중 하나 - 서지 및 주제명, 저자명과 전국의 도서관 정보 등 데이터를 JSON , RDF/XML , Turtle , N3 , nTriples 5가지 형식으로 제공한다. 국립중앙도서관 LINKED OPEN DATA 01 서비스 소개 국립중앙도서관은 국가대표도서관으로 저작물을 수집하여 영구보존합니다. 이 과정에서 정보자원의 관리와 보존, 서비스를 위해 MARC 형태의 목록 정보와 저자 전거, 주제 전거를 lod.nl.go.kr 2) 사서지원서비스..