데이터 분석 소개(1)

2023. 11. 20. 15:56TIL

 

 데이터란 무엇일까?

 데이터 분석을 배우기 시작하기 전, 데이터를 정의해야겠다. 데이터는 우리 삶에 있는 모든 것이다. 특히 기술이 발달하면서 세상이 디지털화됨에 따라 우리가 사용하고 생각하는 모든 것들이 데이터로 남게 된다. 이 어마어마한 양의 데이터가 빅데이터이다. 빅데이터를 활용할 수만 있다면 많은 부가가치를 얻을 수 있다. 

 

데이터팀의 존재 이유

 빅데이터를 활용하기 위해 기업들한테는 데이터팀이 존재한다. 데이터팀은 거대한 양의 데이터에서 신뢰할 수 있는 데이터를 추출한다. 이러한 데이터를 바탕으로 기업들의 의사결정을 도와준다. 데이터를 고려한 결정을 잘하는 기업은 데이터 문해력이 높은 기업이라 할 수 있다. 고품질 데이터를 통해 사용자 경험을 개선하거나 공정을 더욱 효율적으로 바꾼다. 데이터팀에도 여러 조직이 있다. 좋은 품질의 데이터인프라를 구축하는 데이터 엔지니어, 데이터인프라를 바탕으로 지표를 정의하고 시각화하는 데이터 분석가, 그리고 이 모든 것을 종합하여 인사이트를 도출하는 데이터 과학자로 구분된다.

 

데이터 인프라 

 데이터 엔지니어는 서비스와 써드파티를 통해 생기는 데이터를 ETL(Extract/Transform/Load)하여 데이터 웨어하우스에 적재한다. 이를 데이터 인프라를 구축한다고 표현한다. 데이터 레이크(Data Lake)는 구조화 데이터와 비구조화 데이터를 원래 형태대로 보존하는 큰 스토리지라면 데이터 웨어하우스(Data Warehouse)는 보존 기한이 있는 구조화 데이터를 저장하는 스토리지이다. 데이터 웨어하우스를 유지하는 데에는 많은 비용이 필요하다.

 

데이터 분석 수행

 ETL된 데이터를 조합(ELT)하여 지표를 정의하고 대시보드를 생성/관리, 리포팅을 작성하는 일이 데이터 분석가가 하는 일이다. 데이터 분석가는 KPI(Key Performance Indicator)라는 조직 내에서 달성하고자 하는 중요한 목표를 정량적인 숫자로 표현한다. 이 지표를 시간의 흐름에 따라 3A(Accessible, Actionable, Auditable)을 염두하여 시각화한다. 주로 세일즈포스의 태블로, 마이크로소프트의 파워 BI, 구글 클라우드의 룩커와 같은 대시보드를 사용한다.

 

데이터 과학 적용

데이터 분석한 내용을 바탕으로 데이터 과학자는 머신러닝 모델을 만들어 사용자 경험을 개선한다. 데이터 과학을 적용하여 추천이나 검색 등을 조금 더 개인화시켜 준다.

 

클라우드란?

 하드웨어, 소프트웨어를 네트워크를 통해 서비스 형태로 사용하는 것을 의미한다. 클라우드는 기다릴 필요 없이 제공된 서비스를 비용을 낸 만큼 사용한다. 클라우드 컴퓨팅이 없다면 데이터센터 공간 확보하여 직접 서버/네트워크/스토리지를 구매 및 설정을 수행해야 하고 비상시를 대비해 자원을 미리 준비하느라 낭비가 발생한다.

 

AWS(Amazon Web Services)

 가장 큰 클라우드 컴퓨팅 서비스 업체로 아마존의 상품데이터를 API로 제공하면서 시작하였으며 최근 ML/AL 관련 서비스 등 다양한 소프트웨어/플랫폼 서비스 제공하고 있다. AWS가 제공하는 서비스로는 EC2(Elastic Compute Cloud)로 서버 호스팅 서비스, S3(Simple Storage Service), 데이터베이스 관련 서비스, AI & ML관련 서비스가 있다.

 

데이터 조직 구성원

 보통 작은 조직의 경우 한 사람이 여러 역할을 동시에 수행한다. 데이터 엔지니어, 데이터 분석가, 데이터 과학자, ML 엔지니어, MLOps 엔지니어, 프라이버시 엔지니어(개인정보와 같은 민감한 데이터를 관리) 등이 데이터 조직에 구성된다. 데이터 분석가는 주로 파이썬과 SQL을 활용하여 KPI/지표를 설정하고 통계지식을 이용해 A/B 테스트 분석, 데이터 모델링 및 분석, BI 툴을 통한 데이터 시각화 업무를 맡는다. 데이터 엔지니어는 기본적으로 소프트웨어 개발자로 데이터 인프라를  구축하고 내/외부 데이터를 데이터 웨어하우스로 가져오는 역할을 한다. 데이터 과학자는 과거 데이터를 기반으로 미래를 예측하는 머신러닝 모델을 생성하고 배포하며 사용자의 경험을 개선하고 개인화, 자동화, 그리고 최적화한다. 

 

데이터 문해력
데이터를 수집하는 것은 시작일 뿐 데이터를 활용해야 한다

 데이터 문해력이란 데이터를 이해하고 활용할 수 있는 능력으로 데이터를 활용하여 의사 결정 및 제품 개선, 생산성 증대를 할 수 있다. 데이터는 자산이라는 인식 하에 회사 전체의 데이터 문해력이 향상된다. 특히 ChatGPT와 같은 Gen AI가 발전함에 따라 업무 효율성 증대를 통한 생산성이 증대된다. 기술의 발전과 더불어 개인정보 보호와 같은 데이터 관리에 대한 중요성도 높아지고 있다. 이에 따라 데이터 거버넌스가 필요하다. 

 

데이터 거버넌스란 데이터의 보안, 개인정보 보호, 정확성, 가용성, 사용성을 보장하기 위해 수행하는 모든 작업으로 여기에는 사람들이 취해야 하는 조치, 따라야 하는 프로세스, 데이터 수명 주기 전반에 걸쳐 이를 지원하는 기술이 포함된다.

 

데이터 일을 하면서 배운 교훈
  • 데이터를 통해 회사 수익에 긍정적인 영향을 끼쳐야 한다.
  • 데이터 조직 수장은 주변 팀들이 데이터 팀으로부터 바라는 기대를 관리하며 데이터 팀이 회사 중요지표에 끼치는 영향을 객관적으로 신뢰할 수 있도록 해야 한다.
  • 데이터 인프라가 바탕이 되어야 데이터 분석 및 모델링이 가능하다.
  • 데이터의 품질 유지에 가장 많은 시간을 쏟아야 한다. 
  • 무슨 일을 하건 객관적인 지표부터 생각한다. 
  • 가능하면 간단한 솔루션으로 해결한다. (처음부터 딥러닝보다는 간단한 논리로 해결 시도, 점진적인 개발)

 

공부하며 어려웠던 내용

 첫 수업이고 이론적으로는 크게 어려운 내용은 없었다. 다만 아직 슬랙이나 게더타운 사용하는게 익숙치 않았고 배운 내용을 블로그라는 형식으로 정리를 해보지 못해서 다소 어려웠다. 앞으로 하면서 점점 늘 것이라 생각된다.

'TIL' 카테고리의 다른 글

Excel을 활용한 다양한 데이터 분석 실습(1)  (1) 2023.11.27
데이터 분석 소개(5)  (0) 2023.11.24
데이터 분석 소개(4)  (1) 2023.11.23
데이터 분석 소개(3)  (0) 2023.11.22
데이터 분석 소개(2)  (4) 2023.11.21