Excel을 활용한 다양한 데이터 분석 실습(5)

2023. 12. 2. 14:53TIL

결측치와 강의 정리

 결측치(Missing Value)는 0이라는 값이 아닌 단어 그대로 결측이 있는 값이다. 3가지로 구분하자면 NA(Not Available): 유효하지 않은 값, NaN(Not a Number): 숫자가 아닌 값, Null: 아무것도 존재하지 않음 이 있다. 이러한 결측치가 발생하는 이유는 실제로 값을 입력하지 않은 경우, 설문조사 특정 질문에 미응답 한 경우, 그리고 데이터 오류 등 다양하다. 결측치는 데이터의 손실을 불러올 수 있고 결측치 대체를 잘못한다면 데이터 편향이 생길 수 있다. 또, 결측치 처리에 따라 분석결과가 매우 달라진다. 따라서 결측치 처리는 데이터 분석할 때 상당히 중요하다.

 

 결측치를 대체하는 방법에는 여러가지가 존재한다.

  • 평균으로 대체하기
    • 변수의 결측값을 평균값으로 대체
    • 특정 정보가 존재하지 않을 경우 평균값이 가장 좋은 값이라는 논리에서 기인
    • 정보의 손실은 줄어들 수 있으나, 결측치에 대한 불확실성을 고려하지 않음
  • 완전히 제거하기
    • 결측치가 포함된 값을 분석 대상에서 제거
    • 편향이 발생할 가능성이 적음
    • 정보의 손실 및 검정력 약화 문제 가능성이 높음
  • 회귀대체법
    • 회귀 방정식을 통해 결측값을 예측값으로 대체
    • 변수의 특성에 따라 회귀식을 구성하여 예측력 향상

 

  지금까지 엑셀을 활용하여 데이터 분석을 연습해 보았다. 도메인 지식을 기반으로 데이터 분석을 해보았고 캐글에 있는 타이타닉 생존여부 문제를 엑셀 함수를 통해 직접 분석하며 점수도 받아 보았다. 

 

공부하며 어려웠던 내용

 캐글 문제를 풀어보면서 결측치를 처리하는게 까다로웠는데 강의를 들으며 조금 더 정확한 데이터 분석을 할 수 있게 된 것 같다.