2023. 11. 21. 17:10ㆍTIL
데이터 기반 의사결정이란?
데이터는 기본적으로 과거의 기록으로써 데이터 기반 결정은 혁신이 아닌 지금 하는 일의 최적화이다. 데이터에서 인사이트를 찾는 방법에는 중요 지표를 데이터 기반으로 정의 후 시각화하는 방법, 가설을 바탕으로 실제 데이터를 확인하는 방법이 있다(A/B 테스트).
데이터 분석 케이스는 중요 지표 대시보드, 고객 이탈률/잔존율 분석(보통 코호트 분석으로 진행), 마케팅 기여도 분석이 있다.
- 마케팅 기여도 분석: 화장(火葬) 스타트업이 다양한 디지털 광고 마케팅을 수행한 후 데이터를 분석하여 어느 채널에 어떤 형태의 마케팅이 효과적인지 파악
- 중요 지표 대시보드: 원격 애완동물 진료 서비스를 제공해 주는 마켓플레이스에서 애완동물 주인과 수의사/동물병원을 연결시켜 주는 고객용 대시보드 개발, 세일즈포스와 내부 매출 정보를 연동하여 수의사/동물병원용 대시보드 개발
- 고객 이탈률/잔존률 분석: 전동 스쿠터 회사에서 돈을 많이 쓰는 고객들이 두세 달 후에는 서비스를 그만 사용하는 현상을 분석하니 매일 스쿠터를 대여하다가 개인 스쿠터를 구매를 하게 되는 점을 알게 됨. (VIP들의 이탈률 트래킹 중요), 고객 불만과 이탈률 간의 관계로 서비스가 정말 마음에 안 드는 사람들은 불만을 얘기하지 않고 이탈한다, Survivorship Bias & Confirmation Bias
데이터 분석가는 비즈니스 인텔리전스를 책임진다. 중요 지표를 정의하고 Tableau나 Looker, Superset와 같은 대시보드 형태로 시각화한다. 그리고 회사 내 다른 팀들의 데이터 관련 질문에 대답을 하고 임원들이나 리드들이 데이터 기반 결정을 내릴 수 있게 도와준다. 질문들이 굉장히 많고 반복적이므로 셀프서비스를 만들 수 있어야 한다. 데이터 분석가의 스킬 셋으로 SQL, 데이터 모델링과 ELT(dbt 툴), 통계적 지식, A/B 테스트 지식, 지표 정의와 대시보드, 비즈니스 도메인에 대한 지식이 필요하다. 데이터 분석가는 현업팀에 소속되는 경우가 많은데 전문적인 데이터 지식이 없는 팀원들과 업무를 하다 보면 자신의 데이터 업무가 인정을 받지 못하고 생산적인 피드백을 못 받을 수 있다.
조직 구조의 중요성과 트렌드
데이터 팀 조직 구조는 중앙 집중 구조, 분산 구조, 하이브리드 구조로 나뉜다.
- 중앙 집중 구조: 모든 데이터 팀원들이 하나의 팀으로 존재, 일의 우선순위는 중앙 데이터 팀, 데이터 팀원들 간의 지식과 경험의 공유가 쉽고 커리어 경로가 더 잘 보임, 현업부서들의 만족도는 떨어짐
- 분산구조: 데이터 팀이 현업 부서별로 존재, 일의 우선 순위는 각 팀별로 결정, 데이터 일을 하는 사람들 간의 지식과 경험을 공유하기 어렵고 데이터 인프라나 데이터의 공유가 힘들어짐, 현업부서들의 만족도는 처음엔 좋으나 데이터 팀원들의 만족도는 떨어짐, 조직별 데이터 팀이 존재하니 데이터 전략들이 팀별로 모두 상이하고 회사 전체 데이터 셋은 불완전하며 중복 투자가 되고 보안/규제 관련 이슈가 많이 발생할 수 있음
- 하이브리드 구조: 데이터 팀원들의 일부는 중앙에서 인프라 일을 수행하고 나머지는 현업팀에서 작업, 기능/목적 별로 커리어 경로를 만들 수 있음
회사의 규모에 따라 데이터 조직 형태가 다르다. 회사가 아주 커지면 회사 전체 데이터 웨어하우스 구성은 불가능하다. 그래서 조직 별로 데이터 시스템을 별도로 갖추게 되고 필요에 따라 통합 시스템을 구성하게 된다. 이에 따라 데이터 메쉬의 필요성이 점점 대두된다.
데이터 메쉬(Data Mesh): 중앙 관리와 표준을 염두에 둔 데이터 분산 아키텍처
데이터 조직의 일주일
세상이 빠르게 변화하면서 미리 소프트웨어의 요구 사항을 미리 알 수 없어 소프트웨어 개발은 애자일 방법론이 대세가 되었다. 1~3주씩 짧은 사이클(스프린트)마다 플래닝 미팅, 스탠드업 미팅, 데모/회고 미팅을 반복한다.
- 월요일: 지난 스프린트 리뷰, 새로운 한주 계획, 온콜 엔지니어와 분석가 지정(데이터 ETL 관련 이슈와 다양한 데이터 관련 질문을 맡을 사람들을 별도로 지정, ETL 관련 이슈 해결은 데이터 시스템 안정성에 중요)
- 화요일: 스탠드업 미팅(어제, 오늘 무슨 일을 하는지), 내부 팀원들과의 미팅(데이터 엔지니어, 데이터 분석가, 데이터 과학자), 다른 팀과의 sync-up 미팅(마케팅, 세일즈 등)
- 수요일/목요일: 스탠드업 미팅, 중요 지표 리뷰 미팅(대시보드를 보며 중요 지표 변화 관찰), 머신러닝 모델 개발 리뷰 미팅
- 금요일: 스탠드업 미팅, 데이터 주간 스태프 미팅(중요 지표와 회사/팀 목표 리뷰, 구인 상황, 중요인력 상황, 주간 사고 리뷰, 메인 프로젝트 리뷰, 팀/개인 업데이트)
좋은 지표(KPI)란?
KPI(Key Performance Indicator)란 조직 내에서 달성하고자 하는 중요한 목표로 정량적인 숫자가 선호되고 명확한 정의가 중요하다. 지표와 KPI의 차이점은 중요도이다(지표 ⊃ KPI). KPI의 기준은 아래와 같다.
- Represent delivery of real value(현재가치를 나타내주는 표현)
- Captures recurring value
- MRR(Monthly Recurring Revenue) vs. Total revenue
- Lagging indicator(후행지표)
- vs. Leading indicator(선행지표)
- Registered users vs. Paid users
- Usable feedback mechanism
- Used for decision making: WAU(주간 사용자수) vs. MAU(월간 사용자수)
기존 지표 기반을 결정을 하지 못하면 대시보드를 계속해서 만들게 되고 의사결정에 장애가 생긴다. 지표와 대시보드는 적을수록 좋다.
KPI와 선행/후행 지표 예
선행지표는 통제할 수 있는 지표로 후행지표에 영향을 끼친다. 선행지표의 예로 매출은 가격(P) * 판매량(Q)이고 P가 고정되었다면 Q를 늘려야 하는데 Q를 늘리는 지표가 선행지표이다. 일반적으로 매출이 훨씬 중요한 KPI이지만 네트워크 현상이 중요한 도메인에서는 서비스 사용 고객수도 중요한 KPI이다.
시각화 대시보드 툴 소개
시각화 툴은 대시보드 혹은 BI(Business Intelligence)툴이라고 부른다. KPI, 지표, 중요한 데이터 포인트들을 데이터 기반으로 계산/분석/표시해 주는 툴이다. Excel, Google Spreadsheet, Python(데이터 특성 분석에 적합), Looker(구글), Tableau(세일즈포스), Power BI(마이크로소프트), Apache Superset(오픈소스), Mode Analytics, ReDash, Google Studio, AWS Quicksight 등이 있다.
공부하며 어려웠던 내용
KPI 공부하면서 비즈니스 용어나 축약어들이 많이 나와서 따라가기 어려웠다. 처음으로 대시보드 툴인 Tableau를 실습해보았는데 내가 원하는 시각화를 툴로 구현하는게 익숙치 않았다. 많은 연습이 필요하다.
'TIL' 카테고리의 다른 글
| Excel을 활용한 다양한 데이터 분석 실습(1) (1) | 2023.11.27 |
|---|---|
| 데이터 분석 소개(5) (0) | 2023.11.24 |
| 데이터 분석 소개(4) (1) | 2023.11.23 |
| 데이터 분석 소개(3) (0) | 2023.11.22 |
| 데이터 분석 소개(1) (0) | 2023.11.20 |