Kaggle 소개

2024. 2. 5. 14:45TIL

Kaggle 이란?

 Kaggle은 호주에서 시작한 국제적인 기계학습 콘테스트를 제공하는 서비스이다. 2017년 구글에 인수되었으며 데이터 과학자들에게 자신의 능력을 검증해 보면서 가치를 올릴 수 있는 좋은 기회를 제공한다. Kaggle Code는 데이터 과학 관련한 모듈이 모두 설치된 주피터 파이썬 노트북이다. 다른 사람들이 만든 노트북을 보고 학습하기에 최적이다. Kaggle에서 자신의 코드를 올리거나 경쟁에 참여하여 우수한 성적을 받으면 Ranking이 올라간다. 기타 주요 기능으로 Competitions, Datasets, Models, Discussions, Learn가 있다. 

 

Kaggle 대회 이해

 Kaggle 대회의 목적은 참가자 관점에서는 기술 습득, 문제 해결, 금전/경력 인센티브이다. 조직/회사 관점에서의 목적은 혁신 장려, 인재 발굴, 벤치마킹, 연구 기여이다. Kaggle은 커뮤니티 빌딩, 매출 증대가 목적이다. Playground는 경쟁보다는 머신러닝 학습이 목적이다. Simulations은 특정 문제를 해결하는 봇을 만들어 성능을 테스트해 보는 대회이다. Analytics는 해당 데이터셋을 주제로 가설을 세우거나 분석을 하는 대회이다. 캐글 랭킹 중에서 그랜드 마스터는 전 세계에서 극소수이기 때문에 이력서에 적기 좋은 경력이다. 

 

Kaggle 대회 참여해보기 - 타이타닉

 Kaggle 타이타닉 문제는 프로그래밍 언어로 치면 “Hello, World”에 해당하는 유명한 모델링 문제이다. Overview에서 문제에 대한 설명이 있다. Data에는 데이터셋에 대한 설명이 있다. Code에는 다른 사람이 풀이한 노트북을 볼 수 있다. Models에서는 남이 만든 머신러닝 모델을 파인튜닝 할 수 있다. Disscussion은 해당 문제에 대해 토의할 수 있는 곳이고 Leaderboard는 사람들의 점수표를 볼 수 있다. Rules에는 대회에 참여할 때 지켜야 할 규칙이 있다. 

 

 Kaggle 노트북 등을 사용하지 않고 본인의 환경에서 모델링을 하고 싶은 경우 Kaggle API를 사용한다. pip install kaggle 하여 Competitions, Datasets, Notebook과 Interacting 할 수 있다.

 

Kaggle 대회 참여해보기 - 데모

https://www.kaggle.com/code/alexisbcook/titanic-tutorial를 참고하여 문제와 데이터셋을 알아보려 한다. 대회 참여 방법은 https://www.kaggle.com/competitions/titanic/overview에서 'Join Competition' 버튼을 누르면 된다. 데이터셋은 train.csv, test.csv, gender_submission.csv으로 3개의 csv파일이 있다. train.csv은 Survived열을 통해 승객들의 생존여부를 알 수 있다. 이를 승객들의 특성과 함께 분석하여 test.csv로 예측해 볼 수 있다. gender_submission.csv은 test.csv의 승객 생존여부를 예측하는 답안지이다. New Notebook 버튼을 눌러 Kaggle 노트북으로 주피터 파이썬 노트북처럼 분석을 한다. Submit Prediction 버튼을 눌러 답안을 작성한 csv파일을 올리면 본인이 작성한 답안의 정답률을 알 수 있고 정답률 순으로 리더보드에 등재된다. 

'TIL' 카테고리의 다른 글

Classification 모델 만들기  (0) 2024.02.08
데이터 EDA와 머신러닝 소개  (2) 2024.02.06
성능 평가  (0) 2024.02.02
딥러닝  (0) 2024.02.02
이상탐지  (0) 2024.02.01