프로젝트 #3 : ChatGPT를 활용한 데이터 분석이란

2024. 3. 8. 14:57TIL

ChatGPT를 활용한 데이터 분석이란

 ChatGPT를 활용한 데이터 분석이란 데이터셋을 가지고 ChatGPT와 계속 대화를 하며 문제를 푸는 방식이다. ChatGPT 유료 버전을 사용한다면 Code Interpreter를 사용하여 데이터셋 샘플을 로딩하고 큰 도움을 받을 수 있다. EDA 수행부터 모델링해주는 파이썬 노트북 코드 생성까지 가능하다. 

 

 ChatGPT 사용 시 주의할 점은  ChatGPT가 업그레이드될 때마다 그 전의 프롬프트 테크닉들이 동작하지 않는 경우들이 많이 생기기 때문에 매번 프롬프트 튜닝이 필요하다. 기본적으로 핵심적이고 간결한 질문을 잘하는 것이 항상 중요하다. 같은 버전 내에서도 행동은 확률적이지 확정적이지 않기 때문에 만족스러운 답변을 얻을 때까지 계속 물어봐야 한다.

 

GitHub Copilot 소개

 소스 버전 컨트롤이란 개발자들이 자신이 개발하는 소프트웨어의 소스코드에 발생하는 변경사항들을 관리할 수 있도록 해주는 프로그램이다. 소스 버전 컨트롤 시스템을 사용하면 코드에 생기는 변경 사항들을 쉽게 추적 가능하다. 그리고 두 사람 이상이 공동 개발 시 코드의 공유와 변경이 용이하다. 또, 코드 백업의 역할을 수행하고 최근 시스템들은 코드리뷰도 지원한다. 버전 컨트롤 소프트웨어는 CVS (Concurrent Version System), SVN (SubVersionN), Git/Github이 있다.

 

 Git/Github은 가장 인기 있는 버전 컨트롤 소프트웨어로 웬만한 오픈소스 소프트웨어들은 Github상에 존재한다. 여기에 OpenAI의 코드 완성 모델이 추가된 GitHub Copilot이 많이 사용되고 있다. GitHub for Copilot은 GitHub의 새로운 비전으로 은 Copilot은 이슈부터 배포까지 개발의 전체 수명 주기를 지원한다. Copilot Chat으로 인해 자연어가 이제는 보편적인 프로그래밍 언어가 되었다. 

 

프로젝트 3번 소개와 실습

사용해 볼 데이터 셋은 LendingClub.com의 Loan Data로 대출 구조, 대출자, 대출금 전액 상환 여부에 대한 정보가 포함된 9,500건 이상의 대출로 구성되어 있고 not_fully_paid(대출 상환 여부)를 예측하는 모델을 만들 것이다. 먼저 ChatGPT 유료 버전의 Code Interpreter를 사용해 보고 무료 버전일 경우 접근 방식에 대해 프롬프트를 중심으로 진행한다. 유료 버전은 CSV 파일을 로딩하고 데이터 분석과 모델링 코드를 바로 ChatGPT에게 요청한다. 

'TIL' 카테고리의 다른 글

프로젝트 #2 - QA 챗봇 만들기  (0) 2024.03.07
프로젝트 소개와 프로젝트 #1 - GPT 앱 만들기  (1) 2024.03.06
Foundation 모델 활용해보기  (0) 2024.03.05
AI 발전 동향 이해  (1) 2024.03.04
A/B 테스트 분석 시각화  (0) 2024.03.03