Excel을 활용한 다양한 데이터 분석 실습(4)

2023. 12. 1. 17:57TIL

캐글 시작하기 1

 캐글은 2017년 구글에서 인수한 데이터 분석 플랫폼으로 다양한 데이터 분석 문제가 있고 경진대회를 열고 있다. 이전에 다룬 타이타닉 문제를 다양한 엑셀 함수를 활용하여 캐글 데이터 분석 점수를 내는 실습을 해보겠다. 타이타닉 문제에 있는 파일 중 gender_submission.csv는 OMR카드, test.csv는 시험지, train.csv는 족보라 비유할 수 있다.

 

캐글 시작하기 2

 캐글(kaggle) 홈페이지에 접속하여 회원가입을 먼저 한다. 그다음 competitions 항목으로 들어가 titanic를 검색한다. 그러면 titanic - machine learning from disaster이 나올 텐데 그 경쟁 문제로 들어간다. 그리고 그 문제 있는 데이터를 모두 다운로드한다. train.csv 파일에는 승객번호가 1번부터 891번까지 있으며 생존여부가 이미 작성되어 있다. 이를 통해 생존여부를 예측하기 위한 자신만의 기준을 실제 생존여부를 비교해 보며 조정할 수 있다. train.csv를 통해 test.csv에 있는 승객들의 생존여부를 예측한 다음 gender_submission.csv에 복사하여 파일을 kaggle에 올리면 자신의 답이 얼마나 정확한지 알 수 있다. 

 

공부하며 어려웠던 내용

 데이터 분석에 관심있다면 알아야 하는 캐글이라는 사이트를 알게 되었다. 전 세계의 사람들과 문제 풀이 경쟁도 하고 코드도 공유할 수 있었다.