Data Governance Study - Data Quality Management

데이터 표준 관리: 데이터 표준 코드 등록 절차

이 글에서는 애플리케이션 개발 시 발생하는 표준 코드의 신규 및 변경 요청과 승인 절차를 설명한다. 개발자가 신규 코드 요건을 도출하고 표준 코드 사전에서 검색한 후, 표준 담당자가 이를 검토 및 등록하는 과정을 단계별로 안내한다.
Data Governance
저자

Kwangmin Kim

공개

2024년 08월 20일

1 Data Standard Governance > Data Quality Management

1.1 데이터 품질 진단 지표 측정 방법

1.1.1 정확성 (Accuracy)

  • 데이터가 실제 값이나 참조 소스와 일치하는 정도
  • 측정 방법
    • 샘플링을 통한 수동 검증
      • (정확한 샘플 수 / 전체 샘플 수) * 100
      • 방법: 무작위로 선택된 데이터 샘플을 실제 값과 비교
    • 참조 데이터와의 비교
      • 예: (참조 데이터와 일치하는 레코드 수 / 전체 레코드 수) * 100
      • 방법: 신뢰할 수 있는 외부 데이터 소스와 비교
    • 비즈니스 규칙 위반 검사
      • 예: (비즈니스 규칙을 준수하는 레코드 수 / 전체 레코드 수) * 100
      • 방법: 미리 정의된 비즈니스 규칙에 대한 준수 여부 확인
    • 데이터 검증 알고리즘 사용
      • 예: (알고리즘 검증을 통과한 데이터 수 / 전체 데이터 수) * 100
      • 방법: 체크섬, 유효성 검사 알고리즘 등을 사용
  • 중요성
    • 신뢰성 있는 의사결정: 정확한 데이터는 올바른 비즈니스 결정을 내리는 기반이 된다.
    • 운영 효율성: 부정확한 데이터로 인한 오류와 재작업을 줄일 수 있다.
    • 고객 만족: 정확한 고객 정보는 더 나은 서비스 제공으로 이어진다.
    • 규제 준수: 많은 산업에서 데이터의 정확성은 법적 요구사항이다.
    • 비용 절감: 정확한 데이터는 불필요한 비용 발생을 방지한다.
  • 예시
    • 고객 주소 정확성
      • 측정: 우편번호와 주소의 일치 여부
      • 방법: 우편번호 데이터베이스와 비교
      • 목표: 95% 이상의 주소가 정확해야 함
    • 제품 가격 정확성
      • 측정: 시스템에 등록된 가격과 실제 판매 가격의 일치 여부
      • 방법: POS 데이터와 제품 카탈로그 비교
      • 목표: 99.9% 이상의 가격 정보가 정확해야 함
    • 재고 수량 정확성
      • 측정: 시스템상 재고량과 실제 재고량의 일치 여부
      • 방법: 정기적인 실사를 통한 비교
      • 목표: 97% 이상의 재고 정보가 정확해야 함
    • 금융 거래 정확성
      • 측정: 거래 기록의 정확성
      • 방법: 더블 엔트리 회계 시스템을 통한 검증
      • 목표: 100% 정확성 (모든 불일치는 조사 및 수정되어야 함)
    • 고객 연락처 정확성
      • 측정: 이메일 주소와 전화번호의 유효성
      • 방법: 이메일 발송 테스트, 전화번호 형식 검증
      • 목표: 90% 이상의 연락처 정보가 유효해야 함
  • 정확성 개선 전략
    • 데이터 입력 시 자동 검증 시스템 구축
    • 정기적인 데이터 클렌징 및 품질 검사 수행
    • 데이터 소스의 신뢰성 평가 및 관리
    • 직원 교육을 통한 데이터 입력 오류 최소화
    • 데이터 품질 관리 도구 활용
    • 데이터 정확성에 대한 책임자 지정
    • 지속적인 모니터링 및 피드백 시스템 구축

1.1.2 완전성 (Completeness)

  • 완전성은 필요한 모든 데이터가 존재하는 정도
  • 즉, 데이터셋이 얼마나 빠짐없이 채워져 있는지, 그리고 필요한 모든 정보를 포함하고 있는지를 측정
  • 측정 방법
    • 널(Null) 값 또는 빈 값 검사
      • (채워진 필드 수 / 전체 필드 수) * 100
    • 필수 필드 존재 여부 확인
      • (모든 필수 필드가 채워진 레코드 수 / 전체 레코드 수) * 100
    • 데이터셋 완전성 검사
      • (실제 레코드 수 / 예상되는 총 레코드 수) * 100
    • 시계열 데이터 완전성 검사
      • (데이터가 있는 시간 단위 수 / 전체 시간 단위 수) * 100
  • 중요성
    • 정확한 분석: 완전한 데이터셋은 더 정확하고 신뢰할 수 있는 분석 결과 제공
    • 의사결정 지원: 누락된 데이터 없이 전체 그림을 볼 수 있어 더 나은 의사결정 가능
    • 프로세스 효율성: 필요한 모든 데이터가 있으면 업무 프로세스가 원활하게 진행
    • 고객 만족: 완전한 고객 정보는 더 나은 서비스와 경험 제공 가능
    • 규제 준수: 많은 산업에서 데이터의 완전성은 규제 요구사항의 일부
  • 구체적인 예시
    • 고객 프로필 완전성
      • 측정: 필수 고객 정보 필드의 완전성
      • 방법: (모든 필수 필드가 채워진 고객 프로필 수 / 전체 고객 프로필 수) * 100
      • 목표: 95% 이상의 고객 프로필이 모든 필수 정보를 포함해야 함
      • 필수 필드 예: 이름, 연락처, 이메일, 주소
    • 주문 데이터 완전성
      • 측정: 주문 관련 모든 필요 정보의 존재 여부
      • 방법: (모든 필요 정보가 있는 주문 수 / 전체 주문 수) * 100
      • 목표: 99% 이상의 주문이 모든 필요 정보를 포함해야 함
      • 필요 정보: 주문 ID, 고객 ID, 주문 날짜, 제품 ID, 수량, 가격, 배송 주소
    • 재무 보고 데이터 완전성
      • 측정: 월별 재무 보고서의 모든 필요 항목 존재 여부
      • 방법: (모든 필요 항목이 보고된 월 수 / 전체 보고 월 수) * 100
      • 목표: 100% (모든 월의 재무 보고서가 완전해야 함)
      • 필요 항목: 매출, 비용, 순이익, 자산, 부채, 자본 등
    • 센서 데이터 완전성
      • 측정: IoT 센서에서 수집된 데이터의 시간별 완전성
      • 방법: (데이터가 수집된 시간 단위 수 / 24시간) * 100 (일일 기준)
      • 목표: 99.9% 이상 (하루 중 대부분의 시간에 데이터가 수집되어야 함)
    • 제품 카탈로그 완전성
      • 측정: 제품 정보의 완전성
      • 방법: (모든 필요 정보가 있는 제품 수 / 전체 제품 수) * 100
      • 목표: 98% 이상의 제품이 모든 필요 정보를 포함해야 함
      • 필요 정보: 제품명, 설명, 가격, 카테고리, 이미지, 재고 상태 등
  • 완전성 개선 전략
    • 데이터 입력 시 필수 필드 설정 및 유효성 검사 구현
    • 데이터 수집 프로세스 자동화
    • 데이터 품질 모니터링 도구 사용
    • 정기적인 데이터 감사 및 클렌징 작업 수행
    • 사용자 교육 및 데이터 입력 가이드라인 제공
    • 데이터 보완을 위한 외부 데이터 소스 활용
    • 데이터 거버넌스 정책 수립 및 시행

1.1.3 일관성 (Consistency)

  • 일관성은 데이터가 여러 위치, 시스템, 또는 표현 방식에서 서로 모순 없이 일치하는 정도
  • 이는 데이터의 내부적 일관성(동일 데이터셋 내)과 외부적 일관성(여러 데이터셋 간)을 모두 포함
  • 측정 방법
    • 크로스 체크 (여러 테이블/시스템 간 데이터 비교)
      • (일치하는 데이터 항목 수 / 전체 비교 데이터 항목 수) * 100
    • 중복 데이터 검사
      • (고유한 데이터 항목 수 / 전체 데이터 항목 수) * 100
    • 데이터 형식의 일관성 검사
      • (표준 형식을 따르는 데이터 항목 수 / 전체 데이터 항목 수) * 100
    • 참조 무결성 검사
      • (유효한 참조를 가진 외래 키 수 / 전체 외래 키 수) * 100
  • 중요성
    • 데이터 신뢰성
      • 일관된 데이터는 신뢰할 수 있는 정보 제공
      • 여러 시스템이나 채널에서 일관된 정보를 제공함으로써 고객과 내부 사용자의 신뢰를 얻을 수 있다.
    • 효율적인 운영
      • 일관된 데이터는 업무 프로세스의 효율성을 높이고, 데이터 불일치로 인한 추가 작업을 줄일 수 있다.
    • 의사결정 지원
      • 모순 없는 데이터를 기반으로 한 일관된 의사결정 가능
    • 시스템 통합
      • 여러 시스템 간 원활한 데이터 교환 및 통합 지원
    • 사용자 경험
      • 일관된 데이터로 인한 사용자 혼란 방지
    • 정확한 보고 및 분석
      • 여러 소스의 데이터가 일관될 때, 더 정확하고 신뢰할 수 있는 비즈니스 인텔리전스와 분석이 가능
    • 비용 절감
      • 데이터 불일치로 인한 오류 수정 비용 감소
    • 규제 준수
      • 많은 산업에서 데이터의 일관성은 규제 요구사항의 일부이다. 일관된 데이터 관리는 컴플라이언스를 지원.
    • 고객 경험 향상
      • 고객이 모든 접점에서 일관된 정보를 받을 때, 더 나은 고객 경험을 제공
  • 예시
    • 고객 정보의 일관성
      • 측정: CRM 시스템과 주문 시스템 간 고객 정보 일치 여부
      • 방법: 두 시스템의 고객 데이터를 주기적으로 비교
      • 목표: 95% 이상의 고객 정보가 두 시스템에서 일치해야 함
    • 제품 가격의 일관성
      • 측정: 온라인 스토어와 POS 시스템 간 제품 가격 일치 여부
      • 방법: 실시간 또는 일일 기준으로 두 시스템의 제품 가격 비교
      • 목표: 99.9% 이상의 제품 가격이 모든 판매 채널에서 일치해야 함
    • 재무 데이터의 일관성
      • 측정: 총계정원장과 보조원장 간 잔액 일치 여부
      • 방법: 월말 결산 시 원장 간 잔액 비교
      • 목표: 100% 일치 (모든 차이는 조정되고 설명되어야 함)
    • 주소 형식의 일관성
      • 측정: 정의된 주소 형식 준수 여부
      • 방법: 정규 표현식을 사용하여 주소 형식 검증
      • 목표: 90% 이상의 주소가 표준 형식을 따라야 함
    • 제품 카테고리의 일관성
      • 측정: 여러 시스템에서 동일한 제품에 대한 카테고리 분류 일치 여부
      • 방법: 제품 마스터 데이터와 각 시스템의 카테고리 정보 비교
      • 목표: 98% 이상의 제품이 모든 시스템에서 동일한 카테고리로 분류되어야 함
  • 일관성 개선 전략
    • 데이터 통합 솔루션 구현 (예: 마스터 데이터 관리 시스템)
    • 데이터 동기화 메커니즘 개선
    • 데이터 거버넌스 정책 수립 및 시행
    • 데이터 입력 및 수정 프로세스 표준화
    • 정기적인 데이터 감사 및 정화 작업 수행
    • 시스템 간 실시간 데이터 교환 체계 구축
    • 데이터 소유권 및 책임 명확화

1.1.4 유효성 (Validity)

  • 유효성은 데이터가 정의된 비즈니스 규칙, 데이터 타입, 범위, 형식 등을 준수하는 정도
  • 즉, 데이터가 논리적으로 타당하고 비즈니스 컨텍스트에서 의미 있는지를 측정하는 지표
  • 중요성
    • 데이터 무결성: 시스템의 전반적인 데이터 무결성 보장
    • 오류 방지: 잘못된 데이터로 인한 비즈니스 프로세스 오류 예방
    • 분석 신뢰성: 유효한 데이터를 기반으로 한 신뢰할 수 있는 분석 결과 도출
    • 시스템 호환성: 다양한 시스템 간 데이터 교환 시 문제 방지
  • 측정 방법
    • 데이터 타입 검사
      • (올바른 데이터 타입을 가진 필드 수 / 전체 필드 수) * 100
    • 값 범위 검사
      • (정의된 범위 내의 값을 가진 레코드 수 / 전체 레코드 수) * 100
    • 형식 검사
      • (올바른 형식을 가진 데이터 항목 수 / 전체 데이터 항목 수) * 100
    • 비즈니스 규칙 준수 검사
      • (비즈니스 규칙을 준수하는 레코드 수 / 전체 레코드 수) * 100
  • 예시
    • 이메일 주소 유효성
      • 측정: 올바른 이메일 형식 준수 여부
      • 방법: 정규 표현식을 사용하여 이메일 주소 형식 검증
      • 예시 규칙: 1+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}$
      • 목표: 95% 이상의 이메일 주소가 올바른 형식을 가져야 함
    • 나이 데이터 유효성
      • 측정: 나이 값의 논리적 범위 준수
      • 방법: 0 < 나이 <= 120 범위 검사
      • 목표: 100%의 나이 데이터가 유효한 범위 내에 있어야 함
    • 주문 데이터 유효성
      • 측정: 주문 금액과 주문 항목 수량의 논리적 일관성
      • 방법: 주문 총액 = Σ(항목 가격 * 수량) 검증
      • 목표: 99.9% 이상의 주문 데이터가 이 규칙을 만족해야 함
    • 신용카드 번호 유효성
      • 측정: Luhn 알고리즘을 사용한 신용카드 번호 유효성 검사
      • 방법: Luhn 알고리즘 적용 후 유효성 확인
      • 목표: 100%의 신용카드 번호가 Luhn 알고리즘을 통과해야 함
    • 날짜 데이터 유효성
      • 측정: 날짜 형식 및 논리적 타당성 검사
      • 방법: YYYY-MM-DD 형식 준수 및 존재하는 날짜인지 확인 (예: 2023-02-30은 유효하지 않음)
      • 목표: 100%의 날짜 데이터가 올바른 형식과 유효한 날짜여야 함
  • 유효성 개선 전략
    • 데이터 입력 시점의 유효성 검사 구현
    • 정기적인 데이터 클렌징 프로세스 수립
    • 비즈니스 규칙 엔진 도입
    • 데이터 품질 관리 도구 활용
    • 사용자 교육 및 가이드라인 제공
    • 데이터 모델링 및 스키마 설계 시 제약조건 적용

1.1.5 적시성 (Timeliness)

  • 데이터가 필요한 시점에 이용 가능한 정도와 최신 상태인 정도를 나타냅
    • 즉, 데이터가 현실 세계의 상태를 얼마나 잘 반영하고 있는지를 측정하는 지표
  • 중요성
    • 의사결정: 최신 데이터를 기반으로 한 신속하고 정확한 의사결정 가능 중요성
    • 운영 효율성: 실시간 또는 최신 데이터로 업무 프로세스 최적화 중요성
    • 고객 만족: 최신 정보를 기반으로 한 서비스 제공으로 고객 경험 향상
  • 측정 방법
    • 데이터 갱신 주기 확인
      • (정해진 주기 내 업데이트된 레코드 수 / 전체 레코드 수) * 100
    • 실시간 데이터와 저장된 데이터의 시간 차이 측정
      • 평균 데이터 지연 시간 = Σ(현재 시간 - 데이터 최종 업데이트 시간) / 전체 레코드 수
    • 데이터 생성 시점과 사용 가능 시점의 차이 측정
      • 평균 데이터 가용 지연 = Σ(데이터 사용 가능 시간 - 데이터 생성 시간) / 전체 데이터 수
  • 예시
    • 재고 관리 시스템
      • 측정: 실제 재고량과 시스템상 재고량의 일치 비율
      • 방법: (1시간 이내 업데이트된 재고 항목 수 / 전체 재고 항목 수) * 100
      • 목표: 95% 이상의 재고 정보가 1시간 이내에 업데이트되어야 함
    • 금융 거래 시스템
      • 측정: 거래 발생부터 시스템 반영까지의 평균 시간
      • 방법: Σ(거래 반영 시간 - 거래 발생 시간) / 전체 거래 수
      • 목표: 평균 지연 시간 5초 이내
    • 고객 정보 관리 시스템
      • 측정: 고객 정보 변경사항의 반영 속도
      • 방법: (24시간 이내 업데이트된 고객 정보 변경 건수 / 전체 고객 정보 변경 요청 건수) * 100
      • 목표: 99% 이상의 고객 정보 변경사항이 24시간 이내에 반영되어야 함
    • 적시성 개선 전략
      • 실시간 데이터 처리 시스템 구축
      • 데이터 동기화 주기 최적화
      • 데이터 파이프라인 효율성 향상
      • 중요 데이터에 대한 우선순위 처리 체계 수립
      • 데이터 갱신 알림 시스템 구축

각주

  1. a-zA-Z0-9._%+-↩︎

Subscribe

Enjoy this blog? Get notified of new posts by email: