목록전체 글 (96)
working_helen
데이터 수집 단계에서 학습한 내용 중 세번째로 위경도 기반 지도상 반경 내 데이터를 수집하는 방법에 대해 공부해본다. 1. Haversine 하버사인 공식이란? 2. Haversine 하버사인 공식 코드 1. Haversine 하버사인 공식이란? - 구면에서 두 점 사이의 최단 거리 구할 때 쓰이는 공식 - 평면에서 두 지점을 이은 직선이 최단거리인 반면, 구면에선 곡률의 영향으로 인해 단순히 두 지점을 직선 경로가 최단거리가 되지 않는다. 원의 일부, 즉 호 모양의 경로가 최단거리가 된다. - 지도 상의 두 위치는 구형의 지구 위의 두 지점이므로 구면에서의 최단거리 공식을 통해 두 지점 간 거리를 구한다. - 하버사인 공식은 두 지점의 위도, 경도, 지구 반지름을 이용해 두 지점 간 호의 길이를 계산한..
모델링 과정에서 학습한 내용 중 불균형 데이터 처리 방법에 대해 공부해본다. 1. 데이터 불균형 문제 2. Under Sampling 3. Over Sampling 4. SMOTH 5. 파이썬 코드 1. 데이터 불균형 문제 - 머신러닝 분류 문제는 새로운 데이터가 어떤 범주에 속하는지 판단하는 것을 목표로 한다. - 하지만 현실의 많은 데이터는 각 범주의 비율이 불균형한 경우가 많다. - 데이터의 불균형은 머신러닝 학습에 영향을 주며, 특히 적은 비율을 차지하는 소수 범주가 관심 대상인 경우 데이터의 불균형을 해소한 후 학습을 진행해야 한다. - 예를 들어 여성이 10%, 남성이 90%인 학습 데이터로 사용한다면, 다수 집단인 남성에 속할 것이라 예측하는 것이 맞을 확률이 높기 때문에 소수 집단인 여성을..
1. 콘텐츠 기반 필터링 2. 콘텐츠 기반 필터링 과정 3. 콘텐츠 기반 필터링 장단점 4. Pandora 음악 추천시스템 - 콘텐츠 기반 필터링 사례 5. 카카오 페이지 추천시스템 - 콘텐츠 기반 필터링 사례 1. 콘텐츠 기반 필터링(Content-Based Filtering, CBF) : 사용자가 선호하거나 사용한 적 있는 아이템과 비슷하고 관련된 아이템으로 추천하는 추천 시스템 방법이다. 사용자의 과거 사용 데이터를 기반으로 해당 사용자가 좋아할 법한 콘텐츠(content)를 가지고 있는 유사한 새로운 아이템을 찾아 추천한다. 다루는 문제 : 개별 사용자마다의 아이템 호불호 분류 문제 사용 데이터 : 사용자의 과거 아이템 사용 이력 + 각 아이템의 특징 정보(콘텐츠 content) 제시하는 답 : ..
강연 이름 : 2023 하계 Co-week 날짜 : 2023년 7월 5일 강연 주제 : 빅데이터 기반 이미지 생성 AI 기술 'GAN' 강연자 : 강지우 숙명여자대학교 인공지능공학부 교수 1. 기계 학습 2. GAN의 개념 3. GAM의 활용 4. GAN의 기술 동향 1. 기계학습 (Machine Learning) - 지도 학습 : 라벨 정보(=정답)가 존재하는 상황에서 직접적인 정답을 통해 학습하는 방법 - 비지도 학습 : 라벨 정보가 존재하지 않는 상황에서 경험을 통해 얻은 데이터를 기반으로 통계적으로 학습하는 방법 - 강화학습 : 라벨 정보가 존재하지 않는 상황에서 행동에 따른 '보상'을 기준으로 최대 보상을 받는 방법을 학습하는 방법 2. GAN의 개념 1) Generative model(생성 모..
데이터 수집 단계에서 학습한 내용 중 두번째로 selenium package를 활용한 웹데이터 크롤링에 대해 공부해본다. 1. Selenium이란? 2. Selenium 코드 1) 브라우저 페이지 열기 2) element 요소 찾기 3) 상호작용 및 데이터 추출 4) 키보드 입력 5) 브라우저 이동 6) 브라우저 응답 기다리기 1. Selenium이란? requests 라이브러리로 웹 정보를 받고, BeautifulSoup로 정보 수집 Selenium 라이브러리로 브라우저를 열어 정보 수집 파이썬에서 크롤링 작업은 크게 위 두가지로 나뉜다. Beautifulsoup의 경우 고정된 웹 페이지 내에서 정보 트리를 탐색하는 정적 크롤링 방식이다. 반면 Selenium의 경우 페이지의 이동이나 클릭(click)..
데이터 수집 단계에서 학습한 내용 중 첫번째로 API의 개념과 API 데이터 처리 방법에 대해 공부해본다. 1. API의 개념 1) API 2) API의 기능 3) open API 4) API 제공 데이터의 형태 2. XML 1) XML(Extensible Markup Language) 2) 폐업 가게 데이터 API 3) (참고)위도/경도 전환 API 1. API의 개념 1) API(application programming interface) [위키피디아에서 정의하는 API의 개념] API(application programming interface 애플리케이션 프로그래밍 인터페이스, 응용 프로그램 프로그래밍 인터페이스)는 컴퓨터나 컴퓨터 프로그램 사이의 연결이다. 일종의 소프트웨어 인터페이스이며 다른..