데이터 분석

[250501, 250502] 태블로

경 민 2025. 5. 2. 21:33
👩🏻‍💻  Point of Today I LEARNED 
📌 SQL
 ↗ QCC 복습

📌 비즈니스 메트릭 특강 
↗ 1회차 복습
 
📌 Tableau 
  실습으로 배우는 태블로 1~3주차
  태블로 강의 3주차까지 내용으로 퀴즈 3개 만들기 (7조 팀 미션)
  [Quiz 1회차] 오답 노트

📌 Python 
  [통계+머신러닝] 개인과제 

 

어제 새로운 팀원분들을 만났다.

첫 날부터 이렇게 말 많이 했던 조는 처음이었는데,

빠르게 친해질 수 있어서 넘 좋았다 !

 

본격적으로 태블로 공부를 시작했고,

지급받은 태블로 강의 완강을 주간 목표로 삼았다.

 

오늘 3주차까지 공부하고 느낀 점은

이렇게 쉽게 시각화할 수 있었던 걸

그동안 파이썬으로 뭐 한건가 싶으면서도 ..

은근 헷갈리고 어려워서... 놀랐다..


1. SQL 

 

QCC 5회차

1번제출한 쿼리 (오답)with notdis as ( select count(1) cntfrom callswhere category = 'n/a' or category is null )select round(((select cnt from notdis) / count(1)) *100, 1) as uncategorised_call_pctfrom callswhere date_format(call_date, '%Y%m%d') →

rosenps3.tistory.com

자세한 건 여기에 정리해 둠

 

오랜만에 QCC를 본다고 하니까

이제 정말 프로젝트가 끝났나 싶은 마음에 좋은 거 반, 잘 할 수 있을까 싶은 걱정 반으로 시험을 보러 갔다.

 

결과는..

또 별 거 아닌 실수들로 3문제 중 1문제만 맞혔다.

(심지어 이것도 마지막에 백분율로 변환 안 한 거 발견하고 고쳐서 그나마 맞힌..)

 

문제에서 요구하는 답이 뭔지 쿼리 작성하면서 잊어버려서 (ㅋㅋㅋ헛웃음이 나오네)

풀다가 만 셈으로 제출한 것도 있다.

 

실수도 실력이다. 아직 정말 부족한 거 같다.

조금 더 침착하고 꼼꼼하게 푸는 연습을 하자.


2. 메트릭 특강 1회차 복습

✳︎ Metric

프로젝트 목표와 관련한 성과를 파악할 수 있는 수치형 지표

 

1) 좋은 Metric 의 기준 (SMART + ADI)

  • Specific : 명확하게 정의 가능?
  • Measurable : 측적 가능한 수치적인 지표인가? → 시각화할 수 있나?
  • Attainable : 그 지표의 목표가 달성가능한 것인가?
  • Relevant : 제품 가치와 연결된 지표인가?
  • Time-bound : 특정 기간별 계산 가능한가? (최근 7일, 월간, 가입 후 며칠 , ... )
  • Actionable 
  • Directional 
  • Interpretable 

2) 나쁜 Metric의 기준

  • Vanity : 좋아보이지만 사실상 의미 없는 지표
    • 프로필 개설 횟수, 
  • Irrelvant : 제품/비즈니스 목표와 무관한 지표
    • 앱 체류시간 - 오래 머물러있는다고 활성 사용자로 해석할 수 있을까?
  • Impractical : 조작하거나 개선가능한 외부적 지표
    • 애프터 성사율 - 소개팅 어플에서 매칭을 해주었지만 그 이후 단계까지는 파악하기 어려움
  • Complicated : 계산 방식이 너무 복잡하고 의미 해석이 어려워서 활용하기 힘든 지표
    • (고객 수 * 체류시간) / 클릭수 * 0.45
  • Delayed : 파악은 가능하지만 측정 결과가 너무 늦게 나와서 의사결정 및 개선에 사용 불가한 지표
    • 결혼 성사율, LTV - 고객이 1년동안 쓴 매출을 기준으로 본다면 그 1년을 기다려야 함

3) AARRR 프레임워크 (Pirate Metrics)

Metric을 고객 Funnel 기준으로 나누는 방법

  • Acquistion : 사용자 유입되는 단계 (유입 채널별 클릭률, 하루 평균 로그인수 등)
  • Activatioin : 유입 후 처음으로 제품을 경험하는 단계 (가입 후 3일 내 핵심 기능 사용률 등)
  • Retention : 한 번 경험하고 끝나는 게 아닌지, 다시 돌아오는지 (주간 재방문율, 7일 유지율 등)
  • Referral : 다른 사람에게 공유, 추천했는지 (초대 코드 사용률, 공유 기능 클릭률 등)
  • Revenue : 매출, 수익으로 연결되었는지 (구매 전환율, 1인당 평균 결제금액(ARPU) 등)

▶ 각 지표별로 time-bound 가능한 확실한 기준을 정하는 것이 중요해보인다.


3. Tableau

3-1. 실습으로 배우는 태블로 1~3주차

✳︎ BI (Business Intelligence) 

데이터 수집 및 분석을 통해 얻은 의사결정에 도움이 될만한 인사이트를 시각화하기까지의 전 프로세스 및 도구를 아울러서 지칭

  • Tableau : 시각화에 강력하고 직관적이라 사용하기 쉬움
  • Google Looker Studio : 클라우드 기반, 모델링 중심 분석
  • Power BI Desktop : Microsoft 에 최적화됨
  • Redash 
  • Apache Superset
  • Microstrategy(MSTR)

✳︎ 대시보드

BI의 결과를 '한 화면'에 정리하는 도구

  • GA4
  • Amplitude
  • Mixpanel
  • 그 외 파이썬 라이브러리를 활용하는 대시보드 도구도 있음 (plotly dash, streamlit, panel, voila, gradio)
✅ 대시보드 활용 실무사례
1. 주간, 월간, 분기별 KPI 를 알고싶다.
2. 데일리 KPI 지표들을 직관적으로 시각화해서 파악하고 싶다.
3. 엑셀 시트에 있는 대시보드를 하나의 BI 대시보드로 자동화하고 싶다.
4. A/B 테스트 결과를 모니터링하고 싶다.

[ Tableau 실습 ] 

1) 테이블 관계 만들기 

  1. JOIN : left join, inner join 등 SQL이랑 비슷
    • 두 개의 책을 하나의 두꺼운 책으로 합침. 내용이 많아지고 중복도 있음
  2. 관계 : 하나의 테이블로 병합하지 않고, 테이블 간의 논리적인 연결 관계만 정의해주면 필요할 때 자동으로 내부 조인을 수행 (실제로는 데이터가 독립적으로 유지되기 때문에 join에 비해 데이터 폭발의 위험이 적다)
    • 두 책을 필요할 때만 나란히 펼쳐서 봄. 필요한 정보만 보고 각 책은 그대로 유지
    • 한 회사 안에서 부서끼리 협업 (유연한 관계)
  3. Blending : 워크시트 화면에 서로 다른 데이터 원본이 같이 있기만 하고 병합은 하지 않음. 임시로 분석할 때 사용
    • 다른 회사끼리 협업 계약을 맺고 일시적으로 협업
  4. UNION : 테이블 구조가 동일할 때 사용.  SQL이랑 비슷

2) 데이터 시각화

시각화의 목적을 가장 직관적으로 표현할 수 있는 종류를 사용해야 한다.

 

그 동안 파이썬으로 만들었던 다양한 시각화 자료들을 태블로를 이용해서 만들어보는 실습을 했다.

 

▶ 어려웠던 점과 배운 점

1. x축, y축으로 삼을 컬럼들을 어디에 지정해야하는거지? ☞ x축 : 열 , y축 : 행

2. 파이차트의 경우 당연히 행,열 지정이 필요없음. 각도로 크기 조절!

3. 파레토 차트

  • 파레토 법칙 : 전체 결과의 80%가 전체 원인의 20%로 발생한다는 마케팅 기법 
    • 예시) 매출의 80%가 고객 20%로 결정됨

파레토 차트

4. 시계열 예측도 가능하다 !

    •  연속형 변수 price를 이용해서 시계열 예측값 알아보기


3-2. 태블로 강의 3주차까지 내용으로 퀴즈 3개 만들기 (7조)

1. BI(Business Intelligence)에 관한 설명 중 틀린 것은?

① 데이터 수집 후 분석 결과를 시각화하고 이를 기반으로 인사이트 및 전략을 도출하는데까지의 전 프로세스를 BI라고 한다.
② 주요 시각화 도구로는 Tableau, Power BI, Google Looker, Redash 등이 있다.
③ 여러 시각화 자료를 의사결정용으로 한 화면에 정리한 것을 대시보드라고 한다.
④ Snowflake, Google Bigquery는 대표적인 웨어하우스이며 이를 활용해서 데이터 마트를 구축해 BI에 활용한다.
⑤ Tableau는 SQL 쿼리를 직접 작성해야만 시각화할 수 있다.

2. Tableau에 관한 설명 중 틀린 것은?

① 데이터 원본 연결 시 대용량일수록 라이브보다는 추출 방식으로 연결하는 게 빠르다. 
② 모든 직원은 Tableau로 대시보드를 만들 수 있다.
③ 테이블 병합의 방법으로 관계를 설정해주면 사실상 각 테이블이 독립적으로 유지되기 때문에 join보다 데이터 폭발의 위험이 적다.
④ join은 테이블을 즉시 병합하여 분석하고자 할 때 사용한다.
⑤ 측정값(metric)의 기준이 되는 차원(dimension)도 연속형/불연속형 유형 변경이 가능하다.

3. 경민은 각 지역별로 숙소의 수와 평균 숙소 가격을 마크 크기와 색깔을 이용해서 동시에 비교하고 싶다. 경민이 활용하기에 가장 적합한 시각화 종류를 고르시오.

① 이중축 그래프
② 산점도
③ 트리맵
④ 히트맵
⑤ 누적 막대 그래프 (스택플랏)

 


3-3. [Quiz 1회차] 오답 노트

  • 태블로에서 필요없는 컬럼은 삭제하면된다. (X) ☞ 삭제하면 안되고 숨기기 !!