SQL(5)
-
SQL 쿼리 문법을 활용하여 데이터 분석을 진행하기(5)
실전 데이터 분석 사례 1 - Indian Restaurant Dataset 데이터를 분석하기 전 먼저 중복이 있는지 확인한다. 프랜차이즈 식당들이 있어 중복이 있었다. 그다음 별점 기준 상위 20개 식당을 알아보니 모두 단일 점포이었다. SQL파일을 csv파일로 export 한 뒤 데이터 시각화를 할 수 있다. 히스토그램으로 시각화를 하니 단일 점포는 별점의 분포가 양끝으로 더 넓게 퍼져 있다. 만약 데이터가 상식과 맞지 않을 경우 데이터에 이상은 없는지, 분석 상 오류가 있는지 확인해야 한다. 엑셀이나 파이썬을 활용해 변수 간의 상관계수를 구할 수 있다. 점포개수와 별점과의 상관계수는 양수이고 평균가격, 평균 배달 시간과 별점과의 상관계수는 음수이었다. 지역별로 가격, 배달 시간, 별점 평균을 비교하..
2023.12.08 -
SQL 쿼리 문법을 활용하여 데이터 분석을 진행하기(4)
테이블을 집합으로 생각하기 INNER JOIN: l ∩ r LEFT JOIN: l ∪ (l ∩ r) LEFT ANTI JOIN: l - (l ∩ r) RIGHT JOIN: r ∪ (l ∩ r) RIGHT ANTI JOIN: r - (l ∩ r) FULL OUTER JOIN: l ∪ r WHERE절로 필터링을 할 때 최대한 먼저 필터링해서 집합의 크기를 작게 만들어 놓고 JOIN을 하는 게 실행시간이 적게 걸리고 효율적이다. *,% 사용 지양하기 SELECT product_id, category, name FROM products LIMIT 10 새로운 테이블을 접할때 데이터 일부를 보고 테이블을 파악을 해야 한다. 행의 수가 어마어마할 수 있기 때문에 LIMIT을 걸고 테이블을 조회해야 한다. SELEC..
2023.12.07 -
SQL 쿼리 문법을 활용하여 데이터 분석을 진행하기(3)
숫자 MySQL은 여러가지 숫자 데이터 타입들이 있다. BIT(M): 0과 1로만 구성 (예)b'111' = 7), 1
2023.12.06 -
SQL 쿼리 문법을 활용하여 데이터 분석을 진행하기(2)
다양한 JOINS JOIN은 두 개 이상의 테이블을 특정 key를 기준으로 결합하는 것을 말한다. 하나의 테이블로 모두 통합하기보다 두 개 이상의 테이블로 나누어서 결합하는 이유는 하나의 테이블이면 데이터를 수정하거나 관리할 때마다 모든 데이터가 있는 테이블을 대상으로 관리해야 되지만 테이블을 나누면 해당 데이터가 있는 테이블만 관리하면 되기 때문이다. SELECT products.*, managers.name as manager_name FROM products INNER JOIN managers on products.category = managers.managing INNER JOIN은 products 테이블 기준으로 managers 테이블과 공통점을 on뒤에 있는 category열과 managin..
2023.12.05 -
SQL 쿼리 문법을 활용하여 데이터 분석을 진행하기(1)
SQL과 RDB란 무엇인가 데이터 분석을 공부할 때 SQL은 기본이며 실무에서도 매우 중요하다. SQL을 학습하면 원하는 형태로 데이터를 가져올 수 있다. 그리고 효율적으로 데이터를 가져올 수 있으며 간단한 데이터 분석을 수행할 수 있다. 데이터베이스는 데이터를 쌓고 관리하는 방법에 따라 크게 두 가지로 구분되는데 바로 관계형 데이터베이스(RDBMS)와 비관계형 데이터베이스(NoSQL)이다. 구분 관계형 데이터베이스 비관계형 데이터베이스 사용 목적 - 정형데이터: 테이블/행/열로 이루어진 형태 - Transaction 처리: 데이터의 일관성과 무결성이 중요한 서비스 - 예) 은행의 금융서비스, 쇼핑몰 주문/정산 - 비정형/반정형 데이터: JSON, XML 등 다양한 형태 - 대량의 데이터와 빠른 읽기/쓰..
2023.12.04