목록분류 전체보기 (103)
working_helen

text 감정 추출 모델 훈련 과정에서 진행한 텍스트 전처리와 구글 번역 API에 대해 공부해본다. 1. 텍스트 전처리 2. 토큰화 3. 정제 4. 정규화 5. Goolgetrans 번역 API 1. 텍스트 전처리 (Text preprocessing) - 자연어 처리 문제에서 분석 목적에 맞게 텍스트 데이터를 사전에 전처리하는 작업 - 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization) 3가지 과정으로 이루어진다. - NLTK (Natural Language Toolkik) : 영어 텍스트 전처리를 위한 Python의 자연어 처리 패키지 2. 토큰화 1) 토큰화(tokenization) - 주어진 코퍼스(corpus, 말뭉치)를 어떠한 작은 단위 토큰(toke..

앞서 학습한 k-means 군집화 알고리즘을 적용하여 Spotify 노래 데이터 clustering하는 과정에 대해 정리해본다. 본 프로젝트에서는 audio feature를 이용해 노래의 mood cluster를 구하는 과정을 진행했다. 참고한 이전 분석 자료 International Journal of Music Science, Technology and Art IJMSTA - Vol. 5 - Issue 1 - Janury 2023 ISSN 2612-2146 Pages: 13 Spotify Song Analysis by Statistical Machine Learning Authors: Federica Biazzo, Matteo Farné Categories: Journal Abstract - This..

Audio feature 군집화 과정에서 사용한 K-means 분류 모델에 대해 공부해본다. 1. K-means 1) K-means clustering 2) 분류 과정 3) 군집 개수 k 정하기 4) 초기 중심점 정하기 5) 분류 vs 군집화 6) 장점/단점 2. 성능 확인 1) 내부 평가 vs 외부 평가 2) silhouette score 3. 파이썬 코드 1. K-means 1) K-means clustering (위키백과) k-평균 알고리즘(K-means clustering algorithm)은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다. 입력 데이터를 n보다 작거나 같은 k개의 그룹으로 나누는데, 이 때 각 그룹은 클러스터를..

데이터 수집 단계에서 접한 다양한 도서 데이터와 Kakao Developers에 대해 공부해본다. 1. 국립중앙도서관 데이터 2. Kakao Developers 1. 국립중앙도서관 데이터 1) 국가서지 LOD - 국립중앙도서관에서 제공하는 공공 데이터 개방 서비스 중 하나 - 서지 및 주제명, 저자명과 전국의 도서관 정보 등 데이터를 JSON , RDF/XML , Turtle , N3 , nTriples 5가지 형식으로 제공한다. 국립중앙도서관 LINKED OPEN DATA 01 서비스 소개 국립중앙도서관은 국가대표도서관으로 저작물을 수집하여 영구보존합니다. 이 과정에서 정보자원의 관리와 보존, 서비스를 위해 MARC 형태의 목록 정보와 저자 전거, 주제 전거를 lod.nl.go.kr 2) 사서지원서비스..

논문명 : Neural Collaborative Filtering 저자명 : Xiangnan He, Lizi Liao, Hanwang Zhang, Liqiang Nie, Xia Hu, Tat-Seng Chua 논문 링크 : https://arxiv.org/abs/1708.05031 본 논문에서는 recommandation problem에서 딥러닝 기반 모델의 활용 가능성을 보이고자 한다. 특히 현재 collaborative filtering에서 널리 사용되고 있는 Matrix Factorization 모델은 user-item 상호작용을 linear하게만 표현하기 때문에 implicit feedback에서의 상호작용을 잘 설명할 수 없음을 주장하며, 이에 대한 대안으로 deep neural networks..

논문명 : Matrix Factorization Techniques for Recommender Systems 저자명 : Yehuda Koren, Robert Bell and Chris Volinsky 파일 링크 : https://datajobs.com/data-science-repo/Recommender-Systems-[Netflix].pdf 본 논문에서는 Matrix Factorization(MF) 모델이 CF 방식에서 성능이 뛰어난 모델임을 보인다. MF의 원리와 기초적인 수식을 제시한 후 MF의 정확도를 높이기 위해 평점 이외에 다양한 정보를 MF 수식에 적용할 수 있는 방법에 대해 소개한다. ✏️ 논문 내용 요약 1. Collaborative filtering에서 MF은 높은 성능을 보이고 있다..

논문 리뷰를 바탕으로 Factorization model을 구현해보는 과정에서 학습한 loss function에 대해 정리해본다. 1. Loss function 1) loss fuction 손실 함수 2) 모델의 학습 3) loss function 종류 2. 회귀모델 loss function 1) 평균제곱오차 MSE 2) 평균제곱근오차 RMSE 3) 평균절대오차 MAE 3. 분류모델 loss function 1) 분류 문제의 종류 2) Activation Function 3) entropy 4) Cross entropy 5) Binary Cross entropy 6) Categorical Cross entropy 7) Sparse categorical cross entropy 1. Loss functio..

교육 프로그램명 : 혁신융합대학 프로그래머스 PCCP(Python) 대비 교육 교육 일시 : 2023.08.25 10:00~15:00 강사명 : 김태원 강사님 1. DFS 연습 문제 2. 그래프 1. DFS 연습 문제 연습 문제 : 줄다리기 - fight 정보 = 학생 index 쌍 (i, j) list → 2차원 배열 변환, 사이가 좋지 않은 관계 index를 1로 지정 - 마지막으로 넣은 학생 index p[-1]과 i가 fight 관계이면 해당 case는 cutting - 방문한 현재 노드 i를 방문 stack에 넣고, 현재 노드를 포함하는 DFS를 진행한 현재 노드 i를 포함하는 DFS가 끝나면 stack에서 i를 제거 p = []#학생 index를 저장하는 stack count = 0#가능한 순..
교육 프로그램명 : 혁신융합대학 프로그래머스 PCCP(Python) 대비 교육 교육 일시 : 2023.08.24 10:00~15:00 강사명 : 김태원 강사님 1. BFS 2. DFS 1. BFS - 큐 자료형을 이용해 구현 - 시작 노드에서 가까운 노드들부터 우선 방문하는 방식 => 최단거리 or 최소 횟수문제, 특정 지점에 도착하는 최소경로 or 최거리를 구하는 문제에서 주로 사용된다. - 연습 문제 : BFS로 이진트리 탐색 - while문 한번마다, Q 내 현재 level의 모든 노드에서, 가능한 다음 노드를 찾아 Q에 넣고, level을 1 증가한다. from collections import deque def BFS(): Q=deque() Q.append(1) # 1 level의 root 노드..
교육 프로그램명 : 혁신융합대학 프로그래머스 PCCP(Python) 대비 교육 교육 일시 : 2023.08.23 10:00~15:00 강사명 : 김태원 강사님 1. 정렬 함수 2. Stack 스택 구현 3. Queue 큐 구현 1. 정렬 함수 1) sort method - list나 array를 정렬하는 method - 새로운 list 객체를 리턴하지 않고 기존 list를 변화시킨다. list.sort()# 오름차순 list.sort(reverse = True)# 내림차순 - key를 지정한 정렬 : 정렬시 사용할 기준값 key를 지정하여 정렬한다. list = [(x1, y1), (x2, y2),,,] 형식일때 # x값을 기준으로 내림차순 정렬 list.sort(key = lambda v : -v[0]..