TIL(71)
-
프로젝트 #3 : ChatGPT를 활용한 데이터 분석이란
ChatGPT를 활용한 데이터 분석이란 ChatGPT를 활용한 데이터 분석이란 데이터셋을 가지고 ChatGPT와 계속 대화를 하며 문제를 푸는 방식이다. ChatGPT 유료 버전을 사용한다면 Code Interpreter를 사용하여 데이터셋 샘플을 로딩하고 큰 도움을 받을 수 있다. EDA 수행부터 모델링해주는 파이썬 노트북 코드 생성까지 가능하다. ChatGPT 사용 시 주의할 점은 ChatGPT가 업그레이드될 때마다 그 전의 프롬프트 테크닉들이 동작하지 않는 경우들이 많이 생기기 때문에 매번 프롬프트 튜닝이 필요하다. 기본적으로 핵심적이고 간결한 질문을 잘하는 것이 항상 중요하다. 같은 버전 내에서도 행동은 확률적이지 확정적이지 않기 때..
2024.03.08 -
프로젝트 #2 - QA 챗봇 만들기
워드 임베딩 이해하기 텍스트 처리를 하려면 텍스트틀 숫자(벡터 혹은 행렬)로 변환해야 하기 때문에 워드 임베딩이 필요하다. 크게 Bag of Words (OneHot Encoding) 방법과 Word Embedding 방법이 있다. Bag of Words은 Deep Learning 전에 가장 많이 사용되던 모델이다. 단어별로 인덱스를 지정하고 문장의 경우 문장에서 나타난 단어들의 인덱스를 저장(보통 빈도수도 같이 저장)하는데 이 경우 보통 One-Hot 인코딩을 사용한다. One-Hot 인코딩은 단어들의 관계를 전혀 표현하지 못하고 단어의 순서도 표현이 안된다(문맥이 존재하지 않음). Word Embedding은 N개 단어들 간의 관계를 학습해서 훨씬 더 작은 공간 상에서 표현해주는 딥러닝 모델이다. 이..
2024.03.07 -
프로젝트 소개와 프로젝트 #1 - GPT 앱 만들기
오픈소스 라이센스 이해하기 오픈소스란 소스 코드가 공개되어 있어 누구나 자유롭게 사용, 수정, 배포할 수 있는 소프트웨어이다. 이를 통해 개발자들은 협업을 통해 기술의 혁신과 개선을 추구 가능하다. GitHub을 통해 오픈소스 개발과 공유가 한 단계 발전하였다. 대표적 오픈소스 소프트웨어는 리눅스 운영체제, PostgreSQL / MariaDB와 같은 관계형 데이터베이스, 아파치 웹서버 등의 웹서버 서비스들, Python 등의 프로그래밍 언어, Hadoop과 Spark과 같은 빅데이터 처리 프레임워크 등이 있다. 단, 오픈소스라고 해서 마음대로 쓸 수 있지 않다. 많이 쓰이는 오픈소스 라이센스 5가지가 있다. MIT 라이센스 사용자에게 소프트웨어를 거의 제한 없이 사용, 복사, 수정, 배포할 수 있는 권..
2024.03.06 -
Foundation 모델 활용해보기
Foundation모델의 종류 대규모 사전 학습 모델이라고도 하는 Foundation 모델은 자연어 처리, 컴퓨터 비전 등 다양한 인공지능 분야에 혁신을 가져왔다. Foundation 모델은 광범위한 데이터 세트에 대해 학습되며 Fine-Tuning이 가능하고 사용법은 프로그래밍에서 라이브러리 사용하는 것과 흡사하다. 분야별 대표 Foundation 모델은 다음과 같다. NLP 모델 : GPT, BERT 비전 모델 : ResNet, VGG, Inception과 같은 CNN 기반 모델, Transformer 기반 모델 멀티모달 모델 : GPT4 오디오/스피치 모델 : WaveNet, BERT for Audio HuggingFace 소개 HuggingFace는 Open Source AI 개발 관련 사이트이다..
2024.03.05 -
AI 발전 동향 이해
GenAI란 인공지능은 인간이 하는 일을 대신해주는 시스템을 만드는 컴퓨터 과학이다. 머신러닝은 인공지능의 일부이고 딥러닝은 머신러닝의 일부이다. GenAI는 학습된 콘텐츠 바탕으로 새로운 콘텐츠를 만드는 딥러닝 기술이다. GenAI는 프롬프트를 바탕으로 대답을 예측하던지 새로운 콘텐츠를 생성한다. Generative AI는 딥러닝의 일부이고 LLM(Large Language Model)은 Gen AI의 일부이다. 일반 ML 모델에서 출력은 보통 숫자, 카테고리, 확률 등이 되지만 Gen AI 모델에서 출력은 보통 자연어 문장, 이미지, 오디오 등이 된다. 딥러닝의 모델 타입은 다음과 같다. Discriminative 분류/예측을 하는 것으로 레이블이 존재하는 데이터에 적용 피처들과 레이블들 간의 관..
2024.03.04 -
A/B 테스트 분석 시각화
다양한 시각화 툴 소개 Excel, Google Spreadsheet: 사실상 가장 많이 쓰이는 시각화 툴 Looker (구글) Tableau (세일즈포스) Power BI (마이크로소프트) Apache Superset (오픈소스) Mode Analytics, ReDash Google Studio, AWS Quicksight Python: 데이터 특성 분석(EDA: Exploratory Data Analysis)에 더 적합 Looker 혹은 Tableau가 가장 많이 사용되는 추세이며 두 툴 모두 처음 배우는데 시간이 필요하다. Tableau의 가격이 더 싸고 투명하며 무료 버전도 존재해서 공부가 가능하다. 중요한 포인트는 셀프서비스 대시보드를 만드는 것으로 이런 측면에서는 Looker가 더 좋은 선택이..
2024.03.03