1 데이터 분석 생태계 개요
- 데이터 분석이란? - 데이터 분석의 개념과 도구 생태계 블로그 참고
- 데이터 분석의 ‘두뇌’ 역할을 하는 핵심 기술(통계, 머신러닝, 딥러닝, AI)만으로는 실제 비즈니스 가치를 창출하기 어렵다.
- 이 ’두뇌’를 제대로 작동시키기 위해서는 데이터 인프라, 의사소통, 검증을 담당하는 보완 요소들이 필수적이다.
1.1 데이터 분석 가치 사슬
원천 데이터
↓
[데이터 엔지니어링] ← 수집, 저장, 변환, 관리
↓
정제된 데이터
↓
[분석 및 모델링] ← 통계, ML, DL, AI
↓
분석 결과
↓
[시각화 및 BI] ← 대시보드, 리포트
↓
인사이트
↓
[실험 설계 및 검증] ← A/B 테스트, 인과 추론
↓
의사결정 및 실행
↓
비즈니스 가치
2 데이터 엔지니어링 (Data Engineering)
- 데이터 분석 및 머신러닝 모델 구축을 위해 데이터를 수집, 저장, 변환, 관리하는 전체 과정을 의미한다.
- 정제되지 않은 원천 데이터를 분석 가능한 형태로 가공하는 파이프라인을 구축하는 일이다.
2.1 핵심 활동
2.1.1 데이터 수집 (Data Collection)
데이터 소스:
- 데이터베이스 (RDBMS, NoSQL)
- API 연동
- 로그 파일
- 웹 크롤링
- IoT 센서
- 외부 데이터 제공자
수집 방식:
- 배치 (Batch): 정해진 시간에 대량 수집
- 스트리밍 (Streaming): 실시간 연속 수집
2.1.2 데이터 저장 (Data Storage)
저장소 유형:
- Data Warehouse: 구조화된 데이터 (예: Snowflake, BigQuery, Redshift)
- Data Lake: 원시 데이터 모든 형식 (예: S3, HDFS, Azure Data Lake)
- Data Lakehouse: Warehouse + Lake 통합 (예: Databricks, Delta Lake)
2.1.3 데이터 변환 (Data Transformation)
데이터를 원천 시스템에서 분석 가능한 형태로 변환하는 과정이다. ETL과 ELT는 이 과정의 작업 순서가 다른 두 가지 접근법이다.
2.1.3.1 ETL vs ELT 비교
ETL (Extract-Transform-Load) - 전통적 방식
작업 순서:
1. Extract (추출): 원천 시스템에서 데이터 추출
↓
2. Transform (변환): 별도의 처리 서버에서 데이터 변환 및 정제
↓
3. Load (적재): 변환된 데이터를 Data Warehouse에 저장
특징: - 변환 작업이 Data Warehouse 외부에서 발생
- 별도의 ETL 서버 필요
- 변환된 깨끗한 데이터만 적재
장점: - Data Warehouse 부하 감소
- 민감 정보 사전 제거 가능
- 네트워크 트래픽 절감 (필요한 데이터만 적재)
단점: - ETL 서버 추가 비용
- 변환 로직 수정 시 재처리 시간 오래 걸림
- 확장성 제한
적합한 경우: - 온프레미스 환경
- 작은 규모 데이터
- 변환 로직이 복잡하고 안정적인 경우
예시:
MySQL 데이터베이스 (원천)
↓ 추출
ETL 서버 (Talend, Informatica)
↓ 변환: 결측치 제거, 형식 통일, 집계
Redshift Data Warehouse (목적지)
↓ 적재: 이미 깨끗한 데이터
ELT (Extract-Load-Transform) - 최근 트렌드
작업 순서:
1. Extract (추출): 원천 시스템에서 데이터 추출
↓
2. Load (적재): 원시 데이터를 그대로 Data Warehouse에 저장
↓
3. Transform (변환): Data Warehouse 내부에서 SQL/쿼리로 변환
특징: - 변환 작업이 Data Warehouse 내부에서 발생
- 원시 데이터(Raw Data)를 먼저 저장
- 클라우드 Data Warehouse의 강력한 컴퓨팅 파워 활용
장점: - 빠른 데이터 적재 (변환 없이 바로 적재)
- 유연성 높음 (나중에 다양한 방식으로 변환 가능)
- 확장성 우수 (클라우드 자원 활용)
- 원시 데이터 보존 (감사, 재분석 가능)
단점: - Data Warehouse 스토리지 비용 증가
- 변환 작업이 Data Warehouse 리소스 사용
- 데이터 품질 관리 복잡
적합한 경우: - 클라우드 환경 (BigQuery, Snowflake, Redshift)
- 대규모 데이터
- 빠른 데이터 수집이 중요한 경우
- 변환 요구사항이 자주 변하는 경우
예시:
다양한 원천 (MySQL, API, 로그파일)
↓ 추출
BigQuery Data Warehouse
↓ 적재: 원시 데이터 그대로 저장 (raw_data 테이블)
↓ 변환: dbt로 SQL 쿼리 실행
- 결측치 처리
- 형식 통일
- 집계 테이블 생성
최종 분석용 테이블 (clean_data, analytics_table)
2.1.3.2 왜 ELT가 최근 트렌드인가?
1. 클라우드 Data Warehouse의 발전
- BigQuery, Snowflake, Redshift 등은 강력한 컴퓨팅 파워를 제공
- 변환 작업을 빠르게 처리 가능
- 스토리지 비용 하락
2. 유연성 요구 증가
- 비즈니스 요구사항이 자주 변경
- 원시 데이터 보존 → 언제든 다시 변환 가능
3. 실시간 분석 수요
- 데이터를 먼저 적재 → 빠른 가용성
- 변환은 필요할 때 수행
4. dbt(data build tool) 같은 도구의 등장
- SQL 기반 변환을 코드로 관리
- 버전 관리, 테스트, 문서화 자동화
2.1.3.3 ETL vs ELT 비교표
| 구분 | ETL | ELT |
|---|---|---|
| 변환 위치 | 외부 ETL 서버 | Data Warehouse 내부 |
| 적재 데이터 | 변환된 데이터 | 원시 데이터 |
| 속도 | 느림 (변환 후 적재) | 빠름 (바로 적재) |
| 유연성 | 낮음 (재변환 어려움) | 높음 (SQL로 재변환 쉬움) |
| 확장성 | 제한적 | 우수 (클라우드 자원) |
| 비용 | ETL 서버 비용 | Storage 비용 |
| 적합 환경 | 온프레미스 | 클라우드 |
| 복잡도 | 높음 | 낮음 (SQL 기반) |
| 원시 데이터 보존 | 어려움 | 쉬움 |
2.1.3.4 실무 예시 비교
시나리오: 월별 매출 집계
ETL 방식:
1. MySQL에서 주문 데이터 추출 (100만 건)
↓
2. ETL 서버에서 변환
- 날짜 형식 통일
- 취소 주문 제외
- 월별 집계 (→ 12건)
↓
3. Data Warehouse에 12건만 적재
ELT 방식:
1. MySQL에서 주문 데이터 추출 (100만 건)
↓
2. BigQuery에 100만 건 그대로 적재
↓
3. BigQuery에서 SQL로 변환
CREATE TABLE monthly_sales AS
SELECT
DATE_TRUNC(order_date, MONTH) as month,
SUM(amount) as total_sales
FROM raw_orders
WHERE status != 'cancelled'
GROUP BY month;
차이점: - ETL: 12건만 적재 → 스토리지 절약, 하지만 원시 데이터 없음 - ELT: 100만 건 적재 → 나중에 다른 기준으로 재집계 가능
2.1.3.5 변환 작업의 주요 내용
변환 작업은 ETL이든 ELT이든 데이터를 분석 가능한 형태로 만드는 과정이다.
1. 데이터 정제 (Data Cleansing) - 결측치 처리: NULL 값 제거 또는 대체 - 이상치 처리: 비정상 값 제거 또는 보정 - 중복 제거: 동일 레코드 삭제
2. 데이터 통합 (Data Integration) - 여러 소스 결합: JOIN 연산 - 스키마 매칭: 다른 구조의 데이터 통합
3. 데이터 표준화 (Data Standardization) - 형식 통일: 날짜, 전화번호, 주소 포맷 통일 - 단위 변환: USD → KRW, kg → g - 코드 표준화: 약어 → 전체 이름
4. 데이터 집계 (Data Aggregation) - 일별 → 월별 합계 - 거래 내역 → 고객별 총액
5. 특징 생성 (Feature Engineering) - 파생 변수 생성: 나이 → 연령대 - 비율 계산: 전환율, 증가율 - 범주화: 연속형 → 범주형### 데이터 파이프라인 (Data Pipeline)
- 데이터가 소스에서 최종 목적지까지 이동하며 변환되는 자동화된 흐름
- 주요 도구:
- 워크플로우 오케스트레이션: Apache Airflow, Prefect, Dagster
- 데이터 통합: Apache Kafka, Apache Spark
- ETL 도구: dbt, Talend, Informatica
- 워크플로우 오케스트레이션: Apache Airflow, Prefect, Dagster
예시 파이프라인:
1. 일일 매출 데이터 추출 (MySQL)
↓
2. 데이터 정제 및 변환 (Python/Spark)
↓
3. Data Warehouse 적재 (BigQuery)
↓
4. 집계 테이블 생성 (dbt)
↓
5. 대시보드 업데이트 (Tableau)
2.1.4 데이터 품질 관리 (Data Quality)
품질 차원:
- 정확성 (Accuracy): 올바른 값 - 완전성 (Completeness): 결측치 최소화 - 일관성 (Consistency): 형식 통일 - 적시성 (Timeliness): 최신 데이터 유지 - 유효성 (Validity): 비즈니스 규칙 준수
2.2 데이터 엔지니어링의 중요성
“Garbage In, Garbage Out”
아무리 좋은 분석 도구와 모델이 있어도, 양질의 데이터가 없으면 무용지물이다. 데이터 엔지니어링은 데이터 분석의 기반 인프라를 제공한다.
실무 통계:
- 데이터 과학자는 시간의 60-80%를 데이터 수집 및 정제에 소비 - 잘 구축된 데이터 파이프라인은 분석 속도를 10배 이상 향상
2.3 주요 기술 스택
| 영역 | 도구/기술 |
|---|---|
| 프로그래밍 | Python, SQL, Scala |
| 빅데이터 | Apache Spark, Hadoop |
| 스트리밍 | Apache Kafka, Apache Flink |
| 오케스트레이션 | Apache Airflow, Prefect |
| 클라우드 | AWS (S3, Glue), GCP (BigQuery), Azure |
| 데이터베이스 | PostgreSQL, MongoDB, Cassandra |
3 데이터 시각화 (Data Visualization)
분석된 데이터를 차트, 그래프, 대시보드 등의 시각적 형태로 표현하여 사람들이 데이터를 쉽게 이해하고 인사이트를 얻을 수 있도록 돕는 기술이다.
3.1 핵심 원칙
3.1.1 명확성 (Clarity)
- 메시지를 즉시 이해할 수 있어야 함
- 불필요한 요소 제거
- 직관적인 차트 유형 선택
- 명확한 레이블과 제목
- 불필요한 요소 제거
3.1.2 정확성 (Accuracy)
- 데이터를 왜곡 없이 표현
- 주의사항:
- Y축 시작점 조작 금지
- 적절한 스케일 사용
- 3D 차트 지양 (왜곡 발생)
- Y축 시작점 조작 금지
3.1.3 효율성 (Efficiency)
- 최소한의 시각 요소로 최대 정보 전달
Edward Tufte의 Data-Ink Ratio:
Data-Ink Ratio = 데이터 표현 잉크 / 전체 사용 잉크
높을수록 효율적
3.1.4 미학 (Aesthetics)
- 보기 좋은 디자인으로 몰입도 향상
- 조화로운 색상 팔레트
- 일관된 스타일
- 적절한 공백 활용
- 조화로운 색상 팔레트
3.2 시각화의 중요성
- 의사소통 효율성: 복잡한 통계 결과나 머신러닝 모델의 특징도 시각화를 통해 비전문가에게 효과적으로 전달할 수 있다.
- 의사결정 속도: 숫자 테이블보다 시각화가 3배 이상 빠른 인사이트 도출을 가능하게 한다.
4 비즈니스 인텔리전스 (Business Intelligence, BI)
- 기업의 데이터를 수집하고 분석하여 과거와 현재의 비즈니스 현황에 대한 통찰력 있는 보고서와 대시보드를 제공하는 과정 및 기술이다.
4.1 BI vs Analytics
| 구분 | BI | Analytics |
|---|---|---|
| 시간 관점 | 과거~현재 | 미래 |
| 핵심 질문 | “무엇이 일어났나?” | “무엇이 일어날 것인가?” |
| 목적 | 성과 모니터링, 진단 | 예측, 최적화 |
| 기술 | SQL, OLAP, 시각화 | ML, 통계 모델링 |
| 사용자 | 경영진, 관리자 | 데이터 과학자, 분석가 |
| 산출물 | 대시보드, 정기 리포트 | 예측 모델, 시나리오 분석 |
- 관계: BI와 Analytics는 상호 보완적이다. BI가 “무엇이 일어났는지” 파악하면, Analytics가 “왜 일어났고, 앞으로 무엇을 해야 하는지” 답한다.
4.2 BI 시스템 구성 요소
4.2.1 데이터 소스
- 운영 데이터베이스 (OLTP)
- 외부 데이터
- 파일 시스템
4.2.2 ETL 프로세스
- 데이터 추출 (Extract)
- 데이터 변환 (Transform)
- 데이터 적재 (Load)
4.2.3 데이터 웨어하우스 (Data Warehouse)
- OLAP (Online Analytical Processing) 큐브
- 스타 스키마 / 스노우플레이크 스키마
- 차원 테이블 + 팩트 테이블
4.2.4 분석 및 보고 도구
- 대시보드
- 애드혹 쿼리
- 정기 리포트
4.3 BI의 한계와 Analytics의 필요성
- BI의 한계:
- 과거 데이터 중심 (후행 지표)
- “왜?”에 대한 답 제한적
- 미래 예측 불가
Analytics로 보완:
- 예측 모델링
- 원인 분석
- 시나리오 시뮬레이션
- 최적화 추천
- 과거 데이터 중심 (후행 지표)
5 실험 설계 (Experiment Design) 및 A/B 테스트
- 어떤 변화(신제품, 마케팅 전략 등)가 실제 목표 지표에 긍정적인 영향을 미치는지 과학적으로 검증하기 위한 방법론이다.
5.1 A/B 테스트 기본 개념
5.1.1 구조
대조군 (Control Group) vs 실험군 (Treatment Group)
- 대조군: 기존 버전 (A)
- 실험군: 새로운 버전 (B)
무작위 할당 (Randomization)
- 사용자를 무작위로 두 그룹에 배정
- 편향 제거
5.1.2 프로세스
- 가설 수립: “새로운 버튼 색상이 클릭률을 높일 것이다”
- 실험 설계
- 대조군: 파란색 버튼
- 실험군: 빨간색 버튼
- 샘플 크기 계산
- 실험 기간 설정
- 대조군: 파란색 버튼
- 실험 실행
- 트래픽을 50:50으로 분할
- 데이터 수집
- 트래픽을 50:50으로 분할
- 통계적 검증
- 유의성 검정 (t-test, chi-square)
- p-value 확인 (보통 < 0.05)
- 유의성 검정 (t-test, chi-square)
- 의사결정
- 유의미한 차이 → 실험군 채택
- 차이 없음 → 대조군 유지
- 유의미한 차이 → 실험군 채택
5.2 실험 설계 원칙
5.2.1 SMART 목표 설정
- Specific: 구체적 (예: “클릭률 5% 향상”)
- Measurable: 측정 가능
- Achievable: 달성 가능
- Relevant: 비즈니스 목표와 관련
- Time-bound: 기한 명확
5.2.2 단일 변수 (Single Variable)
한 번에 하나의 변수만 테스트
- 잘못된 예: 버튼 색상 + 문구 동시 변경 → 무엇이 원인인지 불명확
- 올바른 예: 버튼 색상만 변경 → 명확한 원인 파악
5.2.3 충분한 샘플 크기
통계적 검정력 (Power) 확보
- 일반적으로 Power = 0.8 (80%)
- 샘플 크기 계산기 활용
- 너무 적으면 유의미한 차이 감지 불가
5.2.4 충분한 실험 기간
시간적 변동 고려
- 요일 효과 (주중 vs 주말)
- 계절성
- 일반적으로 최소 1-2주 권장
5.3 고급 실험 설계
5.3.1 A/B/n 테스트
3개 이상의 변형 비교
- A: 기존
- B: 변형 1
- C: 변형 2
- 다중 비교 문제 주의 (Bonferroni 보정)
5.3.2 다변량 테스트 (Multivariate Test)
여러 요소의 조합 테스트
- 예: 버튼 색상(2) × 문구(2) = 4가지 조합
- 복잡하지만 상호작용 효과 파악 가능
5.3.3 밴딧 알고리즘 (Multi-Armed Bandit)
탐색 vs 활용의 균형
- 초기: 모든 변형 탐색
- 점차: 성과 좋은 변형에 트래픽 집중
- A/B 테스트보다 빠른 최적화
5.4 주요 지표 (Metrics)
5.4.1 주 지표 (Primary Metric)
의사결정 기준:
- 클릭률 (CTR)
- 전환율 (Conversion Rate)
- 매출 (Revenue)
5.4.2 보조 지표 (Secondary Metrics)
부작용 모니터링:
- 이탈률
- 체류 시간
- 다른 페이지 전환율
5.4.3 Guardrail Metrics
최소 성능 보장:
- 페이지 로딩 속도
- 오류율
- 고객 만족도
5.5 실험의 중요성
데이터 분석 가설의 실전 검증:
데이터 분석을 통해 얻은 가설이나 모델의 예측이 실제 환경에서 유효한지 확인하는 필수 과정이다.
의사결정 리스크 감소:
직관이나 경험이 아닌 객관적 데이터로 의사결정하여 실패 비용을 최소화한다.
6 인과 추론 (Causal Inference)
- 단순히 변수들 간의 상관관계(correlation)를 넘어, 한 변수가 다른 변수의 원인이라는 인과 관계(causation)를 밝히는 통계적/계량 경제학적 방법론이다.
6.1 상관관계 vs 인과관계
6.1.1 상관관계 (Correlation)
- 두 변수가 함께 변하는 패턴
- 예시:
- 아이스크림 판매량 ↑ → 익사 사고 ↑
- 하지만 아이스크림이 익사를 유발하지 않음
- 공통 원인: 여름 날씨 (교란 변수)
- 아이스크림 판매량 ↑ → 익사 사고 ↑
6.1.2 인과관계 (Causation)
- 한 변수의 변화가 다른 변수의 변화를 직접 야기
- 조건 (Bradford Hill Criteria):
- 시간적 선행성: 원인이 결과보다 먼저
- 상관관계 존재
- 용량-반응 관계
- 그럴듯한 메커니즘
- 일관성
- 특이성
- 시간적 선행성: 원인이 결과보다 먼저
- 조건 (Bradford Hill Criteria):
6.2 인과 추론의 핵심 개념
6.2.1 반사실 (Counterfactual)
- “만약 처치를 받지 않았다면 어땠을까?”
- 문제: 같은 개인이 동시에 두 상태에 있을 수 없음 (근본적 인과 추론의 문제)
- 해결: 비슷한 대조군을 통해 반사실 추정
6.2.2 평균 처치 효과 (ATE: Average Treatment Effect)
- 처치를 받은 경우와 받지 않은 경우의 평균 차이
ATE = E[Y(1) - Y(0)]
Y(1): 처치를 받았을 때 결과
Y(0): 처치를 받지 않았을 때 결과
6.2.3 교란 변수 (Confounder)
- 처치와 결과 모두에 영향을 주는 제3의 변수
예시:
교육 수준 → 소득 (인과관계인가?)
↑
IQ (교란 변수)
6.3 주요 인과 추론 방법
6.3.1 무작위 대조 실험 (RCT: Randomized Controlled Trial)
- 무작위 할당으로 처치군과 대조군 구성
- 장점:
- 교란 변수 통제
- 인과관계 입증의 골드 스탠다드
- 교란 변수 통제
- 단점:
- 비용과 시간 소요
- 윤리적 제약 (예: 의료 실험)
- 실현 불가능한 경우 많음
- 비용과 시간 소요
6.3.2 성향 점수 매칭 (PSM: Propensity Score Matching)
방법:
1. 처치 받을 확률(성향 점수) 계산
2. 비슷한 성향 점수를 가진 처치군-대조군 매칭
3. 매칭된 쌍에서 ATE 계산
장점:
- 관찰 데이터에서 사용 가능
- 교란 변수 통제
단점:
- 관측되지 않은 교란 변수는 통제 불가
- 매칭의 질에 의존
예시: 마케팅 캠페인 효과 분석:
- 처치군: 캠페인 대상 고객
- 대조군: 비슷한 특성을 가진 비대상 고객 매칭
6.3.3 도구 변수 (IV: Instrumental Variable)
- 처치와 상관있지만, 결과와는 오직 처치를 통해서만 영향을 주는 변수 활용
조건:
1. 관련성 (Relevance): 도구 변수가 처치와 상관
2. 외생성 (Exogeneity): 도구 변수가 교란 변수와 무관
3. 배제 제약 (Exclusion): 도구 변수가 결과에 직접 영향 없음
예시: 교육의 소득 효과
- 문제: 능력이 교란 변수
- 도구 변수: 의무교육 법령 (교육 연수에 영향, 소득에 직접 영향 없음)
6.3.4 이중 차분법 (DID: Difference-in-Differences)
- 처치 전후의 변화를 처치군과 대조군에서 각각 계산하고, 그 차이를 비교
DID = (처치군_후 - 처치군_전) - (대조군_후 - 대조군_전)
- 가정: 평행 추세 (Parallel Trends): 처치가 없었다면 두 그룹의 추세가 동일했을 것
- 예시: 최저임금 인상의 고용 효과
- 처치군: 최저임금 인상한 주
- 대조군: 인상하지 않은 주
- 전/후 고용 변화 비교
- 처치군: 최저임금 인상한 주
6.3.5 회귀 불연속 (RDD: Regression Discontinuity Design)
- 특정 기준점(cutoff)을 경계로 처치 여부가 결정될 때, 경계 부근의 불연속을 활용
- 예시: 장학금의 학업 성취도 효과
- 기준: 시험 점수 80점
- 처치: 80점 이상 → 장학금 지급
- 79점 vs 81점 학생 비교 (거의 비슷하지만 장학금 여부만 다름)
- 기준: 시험 점수 80점
장점:
- 강력한 인과 추론
- RCT에 가까운 설득력
단점:
- 기준점 부근에서만 적용 가능
- 외적 타당도 제한
6.3.6 합성 대조군 (Synthetic Control)
- 여러 대조군을 가중 평균하여 처치군과 가장 유사한 “합성” 대조군 생성
- 예시: 특정 국가의 정책 효과
- 처치군: 정책 시행 국가
- 합성 대조군: 여러 비시행 국가들의 가중 평균 (시행 전 추세가 유사하도록)
6.4 인과 추론의 중요성
- 올바른 의사결정: “이 마케팅 캠페인 때문에 매출이 올랐다”와 같은 인과적 주장을 하려면, 단순한 상관관계 분석을 넘어 인과 추론 방법론이 필요하다.
- 정책 평가: 정부 정책, 기업 전략의 실제 효과를 과학적으로 평가하여 자원 낭비를 방지한다.
머신러닝과의 차이:
- 머신러닝: 예측 (Prediction) - “무엇이 일어날 것인가?”
- 인과 추론: 인과 (Causation) - “왜 일어났는가? 개입하면 무슨 일이 생기는가?”
6.5 인과 추론 주요 도구
Python:
- DoWhy: Microsoft의 인과 추론 라이브러리
- CausalML: Uber의 인과 머신러닝
- EconML: Microsoft의 이질적 처치 효과
R:
- MatchIt: 성향 점수 매칭
- AER: 도구 변수
- Synth: 합성 대조군
7 데이터 분석 생태계 통합 관점
7.1 역할 분담
| 요소 | 역할 | 핵심 질문 |
|---|---|---|
| 데이터 엔지니어링 | 인프라 구축 | “데이터를 어떻게 준비할까?” |
| 통계/ML/DL/AI | 분석 및 모델링 | “무슨 패턴이 있고, 무엇을 예측할 수 있나?” |
| 시각화/BI | 의사소통 | “어떻게 전달할까?” |
| 실험 설계 | 검증 | “정말 효과가 있나?” |
| 인과 추론 | 인과 관계 | “왜 그런 일이 일어났나?” |
7.2 실무 프로젝트 흐름
- 비즈니스 문제 정의
- 데이터 엔지니어링
- 데이터 수집 및 파이프라인 구축
- 데이터 수집 및 파이프라인 구축
- 탐색적 데이터 분석 (EDA)
- 통계적 분석
- 시각화
- 통계적 분석
- 모델링
- 머신러닝/딥러닝 모델 구축
- 머신러닝/딥러닝 모델 구축
- 모델 평가 및 해석
- 통계적 검정
- 특징 중요도 분석
- 통계적 검정
- 대시보드 및 리포트 (BI)
- 결과 시각화
- 정기 모니터링
- 결과 시각화
- A/B 테스트
- 실제 환경 검증
- 실제 환경 검증
- 인과 추론 (필요 시)
- 정책 효과 평가
- 전략 ROI 계산
- 정책 효과 평가
- 의사결정 및 실행
- 지속적 모니터링 및 개선
7.3 참고 자료
- Kimball, R., & Ross, M. (2013). The Data Warehouse Toolkit (3rd ed.)
- Kleppmann, M. (2017). Designing Data-Intensive Applications
- Tufte, E. R. (2001). The Visual Display of Quantitative Information (2nd ed.)
- Kohavi, R., Tang, D., & Xu, Y. (2020). Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing
- Pearl, J., & Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect
- Angrist, J. D., & Pischke, J.-S. (2009). Mostly Harmless Econometrics