working_helen

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

[데이터 전처리] 마켓컬리 리뷰 데이터 전처리 / kiwipiepy 형태소 분석기

수집한 마켓컬리 리뷰 데이터에 대해 전처리를 진행한 과정을 정리해본다. 1. kiwipiepy 형태소 분석기 2. PyKoSpacing 3. 띄어쓰기 교정 과정 ✅ 현재 dataframe '국 · 탕 · 찌개' 카테고리 내 상품 목록 '국 · 탕 · 찌개' 카테고리 상품의 리뷰 목록 ✅ 전체 전처리 과정 → 결측치 제거 : review 열에 존재하는 5개의 결측치 제거→ 중복값 제거 : 3181개의 중복되는 리뷰 제거 (동일인이 동일한 내용으로 이중 작성한 리뷰) → 한국어 리뷰만 사용 : 아예 영어로만 쓰여진 826개의 리뷰들을 제거 → 정규 표현식으로 특수문자 + 이모티콘 제거 ① r"[^가-힣A-Za-z0-9\w\s]" : 한국어, 영어, 숫자, 띄어쓰기, 줄바꿈을..

deep daiv./NLP project 2024. 9. 5. 14:16

[프롬프트 엔지니어링] 프롬프트 엔지니어링 연습 with ChatGPT Prompt Engineering for Developers

DeepLearning.AI(Beta)에서 무료로 공개하고 있는 "ChatGPT Prompt Engineering for Developers" 강의를 수강하며 프롬프트 엔지니어링에 대해 학습한 과정을 정리한다. 1. GPT API Request / Response 형식 2. 파이썬에서 API 불러오기 3. Prompting Principles4. Iterative Prompt Development5. 프롬프트 엔지니어링 예시 1. GPT API Request / Response 형식 1) GPT-4 API Request Schema - from : GPT-4 API Reference Guide - GPT 모델 불어오는 과정{ "model": "gpt-4", "messages": [ ..

deep daiv./NLP project 2024. 9. 1. 18:38

[프롬프트 엔지니어링] 프롬프트 엔지니어링의 개념, 기법, 예시

프로젝트 과정에서 활용할 수 있는 프롬프트 엔지니어링에 대하여 개념과 다양한 구현 기법, 작성 예시에 대해 공부해본다. 1. 프롬프트 엔지니어링 2. 프롬프트 엔지니어링 예시 1. 프롬프트 엔지니어링 - AI가 원하는 결과를 생성하도록 가이드하는 최적의 프롬프트를 설계하는 과정 LLM에서 원하는 결과를 얻기 위해 프롬프트를 정교하게 최적화하는 과정 - 프롬프트 엔지니어링을 통해 다양한 종류의 task에서 LLM의 역량을 향상시킬 수 있음 복잡한 task에서도 hallucination과 같은 오류를 해소하는데 기여 - AI의 성능은 프롬프트의 퀄리티에 큰 영향을 받기 때문에 프롬프트를 잘 설계하는 것이 AI를 효과적으로 쓰는 것과 직결됨 - 프롬프트 엔지니어는 AI가 의도치 않거나 엉뚱한 출..

deep daiv./NLP project 2024. 8. 30. 22:34

[데이터 수집] 마켓컬리 리뷰 데이터 크롤링

데이터 수집을 위해 마켓컬리 리뷰 데이터의 특성을 분석하고 리뷰를 크롤링한 과정을 정리해본다. 1. 마켓컬리 리뷰 데이터 2. 크롤링 과정 1. 마켓컬리 리뷰 데이터 1) 마켓컬리의 특성 ✅ 마켓컬리를 분석 대상으로 선택한 이유 ① 마켓컬리 사용자들의 특성 상품위원회를 통한 고품질 상품 선별, 업계 최초로 신선제품 새벽배송 등 품질이 좋고 신선한 상품을 제공하기 위한 시스템을 구축 유명한 맛집의 시그니처 메뉴나 유명 셰프와의 콜라보 상품을 독점적으로 판매 이로 인해 좋은 품질의 프리미엄 식품을 구매할 수 있다는 브랜드 이미지가 확립 => 음식에 관심이 많고, 음식에 진심인 사용자들이 많음, 먹잘알들의 성지 => 다른 쇼핑몰에 비해 상품의 맛과 품질에 대한 구체적인 리뷰를 얻을 수 있을 것으로 기대..

deep daiv./NLP project 2024. 8. 29. 12:03

[NLP 학습] 4주차 : PEFT, Quantization

이전 포스트에서 다룬 LLM을 실제 환경에서 더 효율적으로 사용하기 위해서 어떤 연구가 진행되어 왔는지 알아본다. 1. LLM의 한계 2. Parameter Efficient Fine Tuning(PEFT)3. Quantization 양자화 1. LLM의 Scaling law - OpenAI에서 2020년 발표한 "Scaling Laws for Language Models"은 LLM의 성능 향상에 대한 근거 제시 - LM 학습 시 연산량, 데이터셋 규모, 파라미터를 늘리면 test loss가 계속해서 감소함을 실험적으로 보임 모델 사이즈 증가에 따라 모델의 성능이 선형적으로 향상 - 모델 사이즈가 커질수록 성능이 좋아진다는 사실로 인해 대규모 파라미터와 훈련 데이터를 사용하는 LLM이 발전해옴..

deep daiv./NLP 스터디 2024. 8. 26. 14:21

[NLP 학습] 3주차 : RAG model / 논문 리뷰 : Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

이전 포스트에서 다룬 언어모델에 대한 이해를 바탕으로 RAG model에 대해 학습해본다. RAG model과 관련된 논문 "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks"를 리뷰한다. 1. RAG model 2. 논문 리뷰 1. RAG model - Facebook AI Research(FAIR) 팀에서 2020년에 발표한 "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" 논문에서 제안된 모델 1) RAG 등장 배경 - 기존의 LLM은 학습 시점에 제공되는 데이터로부터 정보를 추출하여 파라미터에 저장하는 방식을 사용하기 때문에 학습 시 제공하지 않은 데..

deep daiv./NLP 스터디 2024. 8. 24. 14:41

[NLP 학습] 3주차 : LoRA / 논문 리뷰 : LoRA: Low-Rank Adaptation of Large Language Models

이전 포스트에서 다룬 언어모델에 대한 이해를 바탕으로 LoRA에 대해 학습해본다. LoRA와 관련된 논문 "LoRA: Low-Rank Adaptation of Large Language Models"를 리뷰한다. 1. LoRA 2. 논문 리뷰 1. LoRA- Microsoft Research에서 2021년 발표한 "LoRA: Low-Rank Adaptation of Large Language Models" 논문에서 제안된 모델 - LLM을 더 효율적으로 tuning하기 위한 기술로 주목을 받음 1) LoRA 등장 배경 - NLP에선 대규모 언어모델을 각각의 task에 맞게 fine-tuning하는 것이 일반적이었음 - pre-training 과정에서 어느정도 최적화된 파라미터를 각 task에..

deep daiv./NLP 스터디 2024. 8. 19. 17:26

[NLP 학습] 3주차 : prompt engineering, CoT / 논문 리뷰 : Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

이전 포스트에서 다룬 언어모델에 대한 이해를 바탕으로 프롬프트 엔지니어링에 대해 학습해본다. Chain-of-Thought prompting과 관련된 논문 "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models"를 리뷰한다. 1. prompt engineering2. Chain-of-Thought prompting 3. 논문 리뷰 1. prompt engineering 1) prompt 프롬프트: 특정 작업을 수행하도록 AI에 요청하는 자연어 텍스트 언어모델에서 특정한 출력을 생성하기 위해 사용자가 입력하는 텍스트 2) prompt engineering 프롬프트 엔지니어링 : AI가 원하는 결과를 생성하도록 지시하는 최적..

deep daiv./NLP 스터디 2024. 8. 18. 17:28

[NLP 학습] 2주차 : BERT / 논문 리뷰 : BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

이전 포스트에서 다룬 Transformer의 개념을 바탕으로 BERT에 대해 학습해본다. BERT와 관련된 논문 "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"를 리뷰한다. 1. BERT 2. 논문 리뷰 1. BERT - Google에서 2018년 발표한 "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding" 논문에서 제안된 모델 - Bidirctional Encoder Representations form Transformers - 다양한 NLP task에서 혁신적인 성능 향상을 가져옴 1) BERT 등..

deep daiv./NLP 스터디 2024. 8. 15. 11:40

[NLP 학습] 2주차 : GPT-1 / 논문 리뷰 : Improving Language Understanding by Generative Pre-Training

이전 포스트에서 다룬 Transformer의 개념을 바탕으로 GPT-1에 대해 학습해본다. GPT-1과 관련된 논문 "Improving Language Understanding by Generative Pre-Training"를 리뷰한다. 1. GPT-1 2. 논문 리뷰 1. GPT-1 - OpenAI에서 2018년에 발표한 “Improving Language understanding by Generative Pre-Training" 논문에서 제안된 모델 - Generative Pre Training of a language model - 자연어 처리 분야에서 전이 학습의 가능성을 처음으로 입증한 모델 중 하나- 이후 GPT-2, GPT-3, GPT-4와 같은 후속 모델들로 이어짐 1) GPT-..

deep daiv./NLP 스터디 2024. 8. 13. 11:38

working_helen

목록전체 글 (103)

working_helen

티스토리툴바