2024. 2. 22. 18:07ㆍTIL
데이터 마이닝이란
데이터 마이닝이란 특정 데이터에 한정하지 않고 대용량의 데이터 내에 존재하는 관계, 패턴, 규칙을 탐색하여 유용한 지식을 추출하는 과정이다. 일반적으로 데이터 선택, 전처리, 데이터 변환, 데이터 마이닝, 해석 및 평가 순서로 진행된다. 데이터 마이닝은 의사결정 강화, 효율성 증대, 고객 이해, 시장 동향 예측을 위해 사용한다. 데이터 마이닝 활용의 여러 사례들이 있다.
- 코로나 19 데이터 마이닝
- 전반적인 흐름을 추적하기 위해 감염자 수, 회복률, 백신 접종 현황, 인구 통계학 정보 등을 사용
- 위 정보를 이용해 전파 속도, 패턴, 감염 차이, 백신의 효과성 등을 확인
- 이러한 정보를 바탕으로 공중 보건 정책의 영향력 파악 및 이에 대한 의사 결정
- 백신의 효과 확인 및 위급 지역 우선 배포
- 변이 바이러스 예측 및 추적
- 실시간 GPS 데이터를 통한 최적 교통 정보 도출
- 실시간 차량의 위치 데이터, 움직이는 물체의 속도, 이동 방향 등의 데이터를 사용
- 이러한 정보를 바탕으로 전반적인 차량의 교통 패턴, 교통량, 시간대별 교통 상황 확인
- 어떤 경로로 주행을 할지
- 교통 체계 최적화 및 체증 완화 전략 개발
- 대규모 행사와 같은 신속한 교통 대응 계획 수립
- 구글 검색어 기반 독감 예보
- 감기, 독감과 같은 질병의 유행성을 파악하는데 전통적인 감시 방법의 한계 및 실시간 데이터 활용 필요성
- 구글에 검색하는 유행성 질병 검색어 데이터 활용
- 독감의 활동성 비교적 정확하게 예측: 독감 발생률 증감, 지역별 위험도 평가
- 공중 보건 예방 조치, 의료 기관 및 약국 자원 배분, 방역 대책 수립 의사 결정
- DNA 데이터를 통한 범죄자 추적
- 여러 사람의 DNA 데이터베이스와 수집한 비교 대상의 DNA의 유사도를 분석
- 빠른 범죄자 추적 및 일치 여부 확인
- 정확한 범인 확인 과정에서 사용되며 증거 자료로서의 역할
데이터 마이닝 절차
- 데이터 수집 및 통합
- 목적으로 하는 문제를 풀기 위한 다양한 데이터를 수집
- 소셜 미디어, 고객 거래 기록, 센서 데이터 등
- 다양한 분석을 위해 서로 상이한 종류의 데이터를 모으는 것도 좋은 접근
- 데이터 통합 과정
- 만약 같은 종류의 데이터라면, 일관된 형식으로 만드는 과정 필요
- 크롤링 과정으로 생성된 DOM 구조 제거
- 이미지 데이터의 경우 크기 조절
- 데이터 품질 관리
- 데이터 검증 및 정화 (오류, 중복을 수정 및 제거)
- 완결성 검사 (누락 데이터 서칭 및 핸들링, 제거 혹은 가상의 값으로 대체)
- 모니터링 (품질을 지속적으로 모니터링, 업데이트로 인한 버전
- 목적으로 하는 문제를 풀기 위한 다양한 데이터를 수집
- 데이터 전처리
- 데이터를 분석하기 위한 가장 초기 과정이며 중요한 첫 단추
- 노이즈 및 오류 제거
- 노이즈로 인한 이상치 데이터를 확인 (IQR, 이상치 알고리즘 결과 등)
- 수집 과정에서의 이상 상태로 인한 오류 데이터 존재 가능
- 식별된 이상치 혹은 오류 데이터는 제거 혹은 수정
- 데이터 정규화
- 데이터의 스케일을 일치시키는 과정
- 서로 다른 데이터 사이의 일치뿐 아니라
- 같은 데이터 내에서도 통일성을 위해 정규화를 진행
- 데이터 마이닝 기법 적용
- 수집한 데이터에 특화된 데이터 분석 방법론을 적용
- 유의미한 패턴과 관계, 통찰을 도출하는 방법을 사용
- 가장 좋은 접근 방법으로는 비슷한 데이터를 분석한 사례를 확인
- 큰 흐름으로 보는 주요 마이닝 기법으로는 아래와 같음
- 분류(Classification), 클러스터링(Clustering), 예측(Prediction), 잠재적 의미 표면화 (Latent Representation)
- 데이터 마이닝 결과 분석
- 마이닝의 기본 의미에 맞춰 넓고 많은 데이터에서 인사이트를 얻고 의사 결정과 같은 과정에 사용
- 이 과정에서 주의할 점은 모델 평가 과정이 존재한다면,
- 모델을 평가하는 평가 수치가 의사 결정에 도움이 되는 평가인지를 판단
- 평가한 데이터가 의미 있는 데이터인지 확인 필요
- 평가 과정 없이 사람의 직관과 판단이 들어가야 한다면,
- 원본 데이터에 특이성과 같은 편향에서 자유로운지
- 그 직관에 위험성은 없는지 등이 필요
데이터 웨어하우스
대기업에는 다양한 부서가 존재하여 특정 부서마다 데이터가 생성되며, 임의의 부서는 다른 부서들의 데이터에 접근하곤 한다. 이때마다 데이터 호출 인터페이스를 각각 따로 만든다면 너무 많은 비용이 필요하다. 이렇게 데이터의 흐름이 엉켜있는 형태를 거미집 현상(Spider Web)이라고 한다.
마치 소/도매업자들이 소비자에게 바로 물건을 보내는 것이 아니라, 이들과 소비자 사이의 물류 창고를 두고 물건의 흐름을 컨트롤하는 것을 본뜬다면 기업 내부에서 움직이는 데이터의 흐름을 효율적으로 컨트롤할 수 있다. 이를 데이터가 모이는 창고(warehouse)라는 의미로 데이터 웨어하우스라고 한다. 데이터 웨어하우스에는 조직이 수집한 데이터를 모두 저장한다. 전통적으로 정형 데이터(structured data)를 저장하고 관리했지만 비정형 데이터(unstructured data)를 처리하고 저장하는 기능으로 통합하였다.
데이터 웨어하우스와 데이터 베이스는 정의와 목적부터 차이가 있다.
- 데이터 베이스 (DB)
- 실시간 데이터 처리와 트랜잭션 관리에 중점을 둠
- 일상적인 업무 및 응용 프로그램에 필요한 현재의 데이터를 저장 및 관리
- 데이터의 신속한 read와 write의 목적을 갖고 있음
- 데이터 소비처 혹은 생산처에서 만들어지고 관리되는 대상
- 다수의 사용들이 동시에 입력 및 수정 가능
- 데이터 웨어하우스 (DW)
- 대규모 데이터를 통합, 분석, 보고하는데 사용되는 시스템
- 과거의 데이터도 포함하고 있음
- DB의 데이터가 주기적으로 모여 만들어지게 됨
- 조직 내 특정 그룹의 사용자에게만 제한
데이터 웨어하우스의 구성 요소는 다음과 같다.
- ETL (Extract, Transform, Load)
- 원천 데이터 소스에서 데이터를 추출(Extract)하고
- 저장할 형태에 맞춰 변형(Transform)하고
- 데이터 웨어하우스 중앙 데이터 저장소로 적제(Load)
- 중앙 데이터 저장소
- ETL 처리된 데이터가 쌓이는 저장소
- 메타 데이터
- 데이터가 쌓이면서 만들어지는 추가 정보
- 원천 데이터의 장소, 중앙 데이터 저장소의 크기 및 구성 방법 등
- 접근
- 사용자의 데이터 저장소와의 상호작용 지원
특정 부서에서 어떠한 주제로 주기적으로 데이터를 보고자 요청한다면 데이터 웨어하우스에서는 요청에 맞는 작은 데이터 집합을 제공해주는데 이를 데이터 마트(Data Mart)라고 한다. 해당 부서에서 사용하는 데이터 베이스와는 다르게, 과거 데이터를 포함한 분석과 보고를 목적으로 한다.
데이터 마트의 특징으로는 부서 중심적이고 주제 중심적이다. 데이터 마트는 특정 부서나 특정 주제에 맞춰서 설계된다. 항상 준비된 것이 아니라 주제에 맞는 부서의 요청이 있을 때 만들어진다. 다음으로 데이터 집중도가 높다. 관련 있는 데이터만 집중적으로 포함하고 있고 사용자 그룹이 필요로 하는 정보를 빠르고 쉽게 확인 가능하다. 마지막으로 효율적 운영 및 사용자 친화성이다. 큰 데이터 웨어하우스 시스템의 일부로 존재되어 있고 집중도 있는 데이터의 최적화된 집합이다. 그래서 필요한 데이터에 대한 간단한 쿼리와 간단한 분석 진행 가능하다. 데이터 마트는 필수 사항은 아니지만 조직 내부에서 사업적 분석을 통해 인사이트를 얻고자 많이 사용한다.
'TIL' 카테고리의 다른 글
| 추천 시스템 (0) | 2024.02.23 |
|---|---|
| 데이터 마이닝 방법 (0) | 2024.02.22 |
| 자연어 처리 프레임워크와 실습 (0) | 2024.02.21 |
| 토픽 모델링과 워드 클라우드 (0) | 2024.02.21 |
| 감정 분석 (0) | 2024.02.20 |