Data Governance Study - Data Standard Word Dictionary

데이터 표준 관리: 표준 단어 사전

이 블로그 포스트에서는 데이터 표준 단어 사전의 개념, 중요성, 그리고 구축 방법에 대해 상세히 설명한다. 표준 단어의 정의와 구성 요소, 사용 원칙, 그리고 제작 과정을 단계별로 소개하며, 한글, 영문, 복합어, 숫자 등 다양한 유형의 단어에 대한 사용 지침을 제공한다. 또한 동음이의어, 이음동의어, 금칙어 등의 처리 방법과 표준 단어 사전의 실제 예시를 통해 실무적인 적용 방안을 제시한다.
Data Governance
저자

Kwangmin Kim

공개

2024년 08월 12일

1 Data Standard Governance > Data Standard Word Dictionary

2 표준 단어사전

  • 조직 내에서 사용되는 데이터 용어를 표준화하고 관리하기 위한 도구이다. 이는 데이터 거버넌스와 데이터 품질 관리의 중요한 구성 요소이며, 조직의 모든 구성원이 쉽게 접근하고 활용할 수 있어야 한다.
  • 표준 단어 사전을 만드는 과정은 반복적이고 지속적으로 이루어져야 하며, 조직의 변화와 새로운 요구사항을 반영하여 발전시켜 나가야 한다.
  • 또한, 기술적인 구현뿐만 아니라 조직 문화와 프로세스 변화도 함께 고려해야 한다.
  • 표준 단어 사전의 주요 구성 요소는 다음과 같다.
    • 조직에서 사용되는 모든 데이터 용어의 공식적인 정의 제공
    • 각 용어의 의미, 사용 맥락, 형식 등을 명확히 기술
    • 데이터 표준관리를 위한 체계적이고 협력적인 접근 필요
    • 조직의 데이터 자산을 효과적으로 관리하고 활용하기 위한 도구 역할 수행
    • 표준 용어 사전과 데이터 카탈로그 제작의 기반이 됨
  • 표준 단어 사전은 단순한 용어 목록이 아니라 조직의 데이터 자산을 체계적으로 관리하는 중요한 도구이다

2.1 표준 단어

  • 일반적으로 단어란 문법상 일정한 뜻과 구실을 가지는 말의 최소 단위를 의미한다.
  • 정보 시스템(예, DBMS)에서 사용하는 표준 단어란 회사에서 업무상 사용하며 일정한 의미를 갖고 있는 최소 단위의 단어를 말한다.
  • 표준용어를 구성 하는데 사용한다.
  • 예시
    • 표준 단어: 정산, 승인, 금액
    • 표준 용어: 정산승인금액
    • DB 속성 또는 Data Modeling을 위한 속성
    속성명 데이터타입 도메인
    정산승인금액 NUMBER(10) 금액n10

2.2 제작시 유념해야할 사항

2.2.1 일관성 유지

  • 한 개의 단어에 대해 표준화된 영문약어를 사용하여 일관성을 확보한다.
  • 조직 전체에서 데이터 용어를 일관되게 사용할 수 있도록 한다.
  • 동일한 개념에 대해 서로 다른 용어를 사용하는 문제를 방지한다.
  • 따라서, 일관성을 유지하기 위해선 표준화 원칙에 따라 표준화 사전들을 작성해야한다.

2.2.2 중복 제거

  • 유사하거나 중복된 용어를 식별하고 제거

2.2.3 표준화

  • 명명 규칙, 약어 사용, 데이터 형식 등을 표준화
  • 데이터 모델링과 시스템 개발에서 일관된 기준을 제공
  • 데이터 표준 단어 용도의 목적은 조직내 정보 공유가 제 1 목적이기 때문에 반드시 공공 기관이나 권위있는 조직의 양식을 따를 필요는 없다.
  • 이상적인 접근 방식은 외부 표준과 조직 내부의 요구사항을 균형 있게 고려하는 것이다.

2.3 표준 단어 사전의 구성 요소

표준단어는 단어명, 영문명, 영문약어명 및 정의 등으로 구성되며 약어는 영문명을 축약하여 작성한다.

  • [단어 ID]

    • 단어를 고유하게 식별하기 위한 식별자
    • ‘W’(Word) + 5자리 일련번호로 구성 (예: W00001)
  • [단어명]

    • 표준단어를 구성하는 최소단위의 단위를 의미하며 한글 및 영문, 숫자로 정의한다.
    • 표준단어의 최대길이는 15자로 하며, 10자 이내로 작성할 것을 권장한다.
  • [한자]

    • 한자 표기가 필요한 경우 해당 단어의 한자를 기재
    • 한자 표기가 없는 경우 빈칸으로 둠
  • [영문명]

    • 표준단어명의 영문 명칭을 의미한다.
    • 영문명의 첫 자리의 알파벳은 대문자로 하고 나머지 부분은 소문자로 하며,영문 단어 간에는 띄어쓰기를 한다.
  • [영문약어명]

    • 영문명의 축약된 형태의 영문명칭을 의미하며 영문명을 바탕으로 영문약어를 정의한다.
    • 영문약어의 최대 길이는 4자로 한다.(권장)
    • 단, 고유명사나 관용적인 표현 등의 경우 글자수에 대한 예외를 허용한다.
  • [단어 설명]

    • 해당 단어가 뜻하는 것 혹은 내용을 의미한다.
    • 데이터 명칭을 그대로 서술하거나 약어 또는 전문 용어를 이용한 기술은 가급적 지양한다.
  • [형식 단어 여부]

    • 해당 단어가 도메인 특성을 지닌 형식단어(분류어)인지의 여부를 기재
    • 형식 단어 여부는 단어의 용어 구성에서의 역할(위치와 기능)을 구분하는 것이므로, 관용어 여부와는 다른 차원의 분류이다.
    • 0: 기본단어 (수식어성)
      • 용어를 구성하는 단어로 용어의 마지막에 위치할 수 없는 단어
      • 주제어(무엇을 설명하는지), 수식어, 접두사/접미사, 복합명사의 수식명사 등이 이에 속한다
      • 예시: 주문, 고객, 상품,거래
    • 1: 분류단어 (도메인성)
      • 용어를 구성하는 단어로 용어의 마지막에 위치하는 단어
      • 용어가 가질 수 있는 속성 정보(데이터 형식 및 길이)를 구체적으로 표현하기 위해 사용한다
      • 분류단어는 도메인과 매핑 되어 그 속성정보를 정의한다
      • 예시: 금액,수량, 성명,코드, 번호,일자
    • 용어 구성(단어 조합) 예시
      • 기본 단어: 고객, 주문
      • 분류 단어: 금액
      • 표준 용어: 고객주문금액
      • 시약코드 (시약 + 코드): 여기서 분류단어는 코드로 string(or varchar) datatype을 암시한다.
      • 시약이름 (시약 + 이름): 여기서 분류단어는 이름으로 string(or varchar) datatype을 암시한다.
      • 시약농도 (시약 + 농도): 여기서 분류단어는 농도로 float datatype을 암시한다.
      • 농도단위 (농도 + 단위): 여기서 분류단어는 단위로 string(or varchar) datatype을 암시한다.
  • [도메인 영역]

    • 형식단어(분류어)인 경우 해당되는 표준도메인의 분류명을 기재
    • 도메인 종류
      1. 실험(Experiment) - 제품, 시약, 검체, 프로토콜, 실험 프로세스
      2. 장비(Equipment) - 장비에서 발생한 데이터, 장비, 기기 물리적 작동/상태/유지보수
      3. 데이터(Data) - 데이터 수집/처리/저장/추출/적재
      4. 분석(Analysis) - 분석 알고리즘, 파라미터, 분석결과, 품질분석, 보고서
      5. 시스템(System) - 프로그램, 워크플로우, 사용자, 권한, 데이터 생성자/변경자
      6. 서비스(Service) - 서비스 이용자 관리, 결과 publish, 결과 조회, 서비스 관리
      7. 공통(Common) - 여러 도메인에서 공통적으로 사용되는 범용적 기본 용어, 코드, 상태 등의 용어
  • [이음동의어 목록]

    • 소리는 다르나 의미가 동일한 단어 (예) 연도/년도, 비율/율
    • 이음동의어는 공통표준단어와 한글명 이외에는 동일하여 한글명만 관리
  • [금칙어 목록]

    • 해당 표준단어에 대한 금칙어 목록을 기재
    • 금칙어 : 사용이 허락되지 않거나 일정기간 사용하다가 특정시점 이후 사용이 중지된 단어
      • (예시) 파일 (표준어) \(\leftrightarrow\) 화일 (금칙어. 사용×)
      • 금칙어는 표준단어 정의대상이 아니며 금칙어의 한글명만 관리
  • [등록일]

    • 해당 단어가 표준단어사전에 최초 등록된 날짜
    • YYYYMMDD 형식으로 기재
  • [수정일]

    • 해당 단어의 정보가 최종 수정된 날짜
    • YYYYMMDD 형식으로 기재
    • 최초 등록시에는 등록일과 동일
  • [승인 상태]

    • 해당 단어의 현재 승인 상태를 표시
    • 임시저장/승인요청/승인완료/반려 중 하나로 표시
  • [관용어]

    • 관용어 (1): 업무상 관례적으로 사용되거나 일반적으로 통용되는 단어/용어
    • 일반단어 (0): 관용어를 제외한 모든 단어
  • 예시

    항목 내용
    단어ID W00001
    단어명 시약
    한자 試藥
    영문명 Reagent
    영문약어명 RGNT
    단어설명 화학 실험이나 분석에 사용되는 화학물질
    형식단어여부 0
    도메인영역 실험
    이음동의어목록 -
    금칙어목록 리에이전트
    등록일 20241122
    수정일 20241122
    승인상태 승인완료
    관용어 0

2.3.1 단어 구성관점에서의 단어 종류

  • 단일어
    • 하나의 형태소(形態素: 의미의 기능을 부여하는 언어의 형태론적 수준에서의 최소단위)로 성립된 단어
      • 고유명사(기관명 포함), 지명(명사) 단일어로 사용함
      • 접사(접두사 및 접미사)와 합성된 단어
      • 두 개의 단일어로 구성되나 영문단어가 각각의 단일어의 영문단어의 조합과 일치 하지 않고 다른 영문단어가 존재하는 경우
    • 예시) 고객,지점, 가격,시설
  • 복합어
    • 둘 이상의 어근(실질 형태소)이 결합 이루어진 단어
    • 예시) 전화번호, 휴대폰번호, 차용지점
  • 외래어
    • 원래 외국어였던 것이 국어의 체계에 동화되어 사회적으로 그 사용이 허용된 단어
    • 예시) 이메일, 팩스, 네비게이션
  • 관용어
    • 한글 단어와 외래어가 결합되어 사용되거나 기타 국어 체계에 부합하지 않더라도 관용적으로 자주 사용되며 의미가 명확한 단어
    • 일반 사회나 기관에서 관습적으로 널리 쓰는 말
    • 예시) VDC,ABS, 셀프계약서, MT
  • 접사 (접두사/접미사)
    • 접두사(Prefix): 어떤 낱말 앞에 붙어서 의미를 첨가하여 한 다른 낱말을 이루는 말
    • 접미사(Suffix): 낱말의 끝에 붙어 의미를 첨가하여 다른 낱말을 이루는 말
    • 예시) 사용, 보증

2.3.2 단어 관계관점에서의 단어 종류

  • 동음이의어
    • 발음은 동일하나 의미가 다른 단어(Homonym)
    • 예시: 기술(Description) / 기술(Technology) / 기술(Skill) / 기술(Trick) / 기술(Artistry)
  • 이음동의어
    • 동일한 의미를 표현하는 두 개의 다른 단어 (Synonym)
    • 즉, 발음은 다르나 동일하거나 매우 유사한 의미를 표현하는 단어
    • 예시: 설명(Explanation) / 기술(Description) / 해설(Commentary) / 문서화(Document) / 상세(Description) / 해석(Interpretation) 등
  • 금칙어
    • 표준단어 사용의 일관성을 위하여 사용하지 못하게 지정된 단어
    • 예시: 이해당사자(X), 이해관계자(O)
  • 유사어
    • 표준단어 사용의 일관성을 위하여 권장어(대체어) 사용을 권고하는 단어
    • 예시: 수정, 변경, 정정
  • 축약어
    • 줄여서 간략하게 표현하는 단어
    • 주민번호(X), 주민등록번호(O)

2.4 표준 단어 원칙

  • 표준 단어 정의 원칙은 데이터 거버넌스를 강화하기 위해 조직 내 데이터 용어를 일관되게 정의하는 기준을 제공한다.
  • 표준 단어 사전을 체계적으로 구축하기 위한 세부 규칙들을 만들고 준수한다.
  • 조직 구성원 간 원활한 정보 공유를 지원한다.
  • 데이터 모델링 및 시스템 개발에서 명확한 기준을 제공하는 역할을 한다.

2.4.1 표준 단어 정의 규칙

구분 규칙 및 설명
문자 • 표준단어는 한글, 영문, 숫자로만 구성한다.
예시: 고객, DTI, 12월
• 띄어쓰기를 허용하지 않으며, 특수문자(“/”,”&”,”-“)는 허용하지 않는다.
• 고유명사에 포함된 ’&’의 경우, ’n‘ 등 알파벳으로 대체하여 사용한다.
예시: 고객 구분(X) → 고객구분(O), MnA
품사 • 한글 단어는 체언(명사, 대명사, 수사)으로 정의하며, 용언(동사, 형용사), 수식언(관형사,부사), 관계언(조사, 토씨, 접속사), 복수표시 또는 소유격 형태의 단어는 사용하지 않는다.
예시: -하다,-이다,의, 대한, 에, 관한, 에서, 등, 하는, 들, 과, 와의 등
• 영어 단어는 명사, 형용사, (순수형용사, 분사), 동명사를 포함하며 관사, 부사, 전치사, 동사, 감탄사를 제외한다. (단, 예외 허용 동사: is, has, exist)
예시: uid: 고유한식별자(X) → uid: 고유식별자(O)
before baseline transformation data (X) → pretransformation baseline data
길이 • 표준단어의 최대 길이는 15자로 하며, 10자 이내로 작성할 것을 권장한다.
적용 순위 • 회사에서 관용화된 단어를 최우선으로 적용한다 (사용 빈도수나 업무를 고려).
예시: LOCT, EJOJ, 전화번호
• 복합어가 단일어 + 단일어 조합보다 우선순위로 적용된다.
(예를 들어, “전화번호”가 자주 쓰이는데, 표준화를 위해 무조건 “전화 + 번호”로 쪼개면 오히려 혼란이 발생할 수 있음.
사용자가 “전화번호”를 찾고 싶을 때, 데이터베이스나 시스템에서 “전화”와 “번호”가 각각 나뉘어 있으면 원하는 데이터를 쉽게 찾을 수 없음)

2.4.2 한글 단어 사용 규칙

순번 규칙 및 설명 예시
1 • 표준단어는 단일어 형태의 명사형 낱말을 표준단어로 정의하는 것을 기본 원칙으로 한다. 고객, 가격, 금액, 지점, 실험, 분석, 검출
2 • 동일한 의미의 단어를 한글과 영문으로 중복해서 정의하지 않는다. RENT(X) → 렌트(O)
3 • 축약된 형태의 단어로 정의하지 않는다. 단, 범용 또는 공식적으로 사용이 승인된 약어는 표준 원칙에 의거하여 사용할 수 있다.
• 또한 원래 단어가 너무 길거나 잘 활용하지 않아서 업무적으로 축약된 단어를 주로 사용하는 경우에 한하여 사용할 수 있다
• 용어명 길이 제약을 해결하기 위해 부득이하게 약어를 사용해야 할 경우에는 약어와 전체 단어를 모두 표준단어로 등록하도록 한다
주민번호(X) → 주민등록번호(O)
등평(X) → 등급평가(O)
4 • 한글 축약어는 다른 단어와 붙여서 쓸 경우 혼동이 될 우려가 있으므로 가급적 풀어 쓴 단어를 사용한다. 단, 어감상 필요 시는 예외로 적용할 수 있다. (이음동의어) 가(假)(X) → 임시(O)
현(X) → 현재(O)
전(X) → 이전(O)
후(X) → 이후(O)
5 • 과거 단어와 현대 단어를 함께 사용하고 있는 경우 가급적 현대 단어를 사용한다. 계리(X) → 계산(O)
구좌(X) → 계좌(O)
매상(X) → 매출(O)
연혁(X) → 이력(O)
6 • 접두사 및 접미사는 가급적 별도로 분리 하지 않으며 표준단어(단일어)로 등록함을 원칙으로 한다. 불, 합격 (X) → 불합격(O)
7 • 고유명사(기관명 포함)는 한글 단어를 사용하는 것을 원칙으로 한다 Google(X) → 구글(O)

2.4.3 영문 단어 사용 규칙

순번 규칙 및 설명 예시
1 • 외국에서 들어온 말로 국어처럼 쓰이는 외래어는 영문을 쓰지 않고 외래어 한글 표기법에 따라 정의하는 것을 원칙으로 한다. Fax(X) → 팩스(O)
Email(X) → 이메일(O)
Database(X) → 데이터베이스(O)
2 • 영문을 대체할 적절한 한글이 없거나 영문자체에 고유한 업무적 의미를 담고 있는 경우, 또한 관용적으로 두음문자 표현이 사용되고 있는 경우에는 해당 영문을 그대로 사용한다. 단, 표준단어로 등록 시 해당 영문의 전체명이 아닌 두음문자 형식의 대문자로 등록한다. URL, HTML, SQL
3 • 영문 단어 첫글자는 알파벳 대문자로 나머지는 소문자로 작성한다. GOOGLE(X) → Google(O)
SHIFT(X) → Shift(O)
4 • 통용되는 접두사(pre-, post-, multi-로 한정)를 독립적으로 사용하고 싶은 경우 통용되는 접두사와 단어를 분리하여 처리한다. 이때 연결사는 띄어쓰기(’ ‘),하이픈(’-‘),밑줄(’_’)을 사용하며 접두사는 독립된 단어로 취급한다.
• 단, 하나의 단일어로 취급하려면 통용되는 접수사와 단어를 분리하지 않는다.
preprocessing → pre-processing
multiprocessing → multi processing
postanalysis → post_analysis
5 • 영문 단어를 한글화 할 경우, 영문 의미로 한글화 한 경우와 소리 나는 대로 한글화한 경우 둘 다 자주 사용될 경우, 소리 나는 대로 한글화한 영어발음을 표준으로 하고, 의미로 한글화 한 단어는 금칙어로 등록한다. ERROR(X), 오류(X) → 에러(O)
6 • 한글 단어 보다 더 친숙하게 사용되는 영문 단어의 경우에는 그 영문단어를 사용한다. 인터넷프로토콜(X), 아이피(X) → IP(O)
7 • 관용적으로 사용하는 단어나 고유명사인 경우 특수문자 중 ‘/’, ‘-’, ’&’만을 사용할 수 있으나, 가급적 특수문자를 사용하지 않는다 M&A(O), MnA(O, 권장)
8 • 한글, 영문, 숫자의 혼용이 가능하다 회사(O), 12월(O)
9 • 한글과 영문만 표준 단어로 인정하며 기타 외국어(한자, 일본어 등)는 사용하지 않는다.
10 • 영국식 영어를 지양하고 미국식 영어를 지향한다. expiry(영국, X) → expiration(미국,O)
colour(영국, X) → color(미국,O)
centre(영국, X) → center(미국,O)
postcode(영국, X) → zip code(미국,O)

2.4.4 영문 약어 사용 규칙

영문 약어 사용 원칙은 물리명 작성에 직접적인 연관이 있기 때문에 가급적 프로그래밍으로 구현하여 검증을 자동화하도록 한다.

단계 규칙 번호 내용 예시
1단계 기본 검증 및 예외 처리
1 접속사, 전치사, 관사는 사용을 금지한다.
단, 단어 목록에 있으면 제거하고 용어 목록에 있을 경우 제거 후 축약
“and”, “of”는 제외
일과 끝 (용어) : End of Day → endy
2 범용적으로 사용되는 두문자 또는 통용되는 약어가 있는 경우 해당 두문자어 또는 약어를 그대로 사용한다. (예: ID, UI, OS 등) “User Interface” → “UI”
3 일반적으로 통용되는 접두사(pre-, post-, multi-, pre_, post_, multi_, pre , post , multi 등)가 포함된 단어의 경우, 접두사는 독립적으로 처리하고 용어를 만들때 밑줄(_)로 구분하여 결합한다. pre-process → pre_prcs
multi process → multi_prcs
post_analysis → post_anly
4 입력 단어가 4글자 이하일 경우 그대로 사용한다. “data” → “data”
2단계 문자 분류 규칙
5 모음(A, E, I, O, U) 외 모든 알파벳이 자음이다. “pattern”에서 P, T, T, R, N은 자음
6 Y, W와 같이 자음이지만 모음으로 혼동하는 알파벳도 모두 자음으로 간주한다.
즉, 2개의 단모음이 결합하여 하나의 음절을 이루는 이중모음(diphthong)의 반모음(semivowel)은 자음으로 간주한다.
즉, 이중모음의 첫 음은 모두 자음이다.
- 예시. ㅑ(ㅑ=ㅣ+ㅏ, ㅣ는 자음으로 간주), ㅕ, ㅛ(ㅛ=ㅣ+ㅗ, ㅣ는 자음으로 간주), ㅠ, ㅒ, ㅖ, ㅘ (ㅘ = ㅗ+ㅏ, ㅗ는 자음으로 간주), ㅝ, ㅢ
Yellow → YLLW
Window → WNDW
7 단어의 첫 글자가 모음인 경우, 해당 모음을 자음으로 취급한다. “apple” → a는 자음 처리
3단계 약어 생성 핵심 로직
8 단어의 대표 자음으로 영문 약어를 구성한다. 대표 자음의 적용 우선 순위는 앞 자리의 자음부터 4 글자까지 적용한다. “management” → “mngm”
9a 연속된 자음 처리: 두 자음이 원본 단어에서 서로 인접해 있으며, 그 사이에 모음이 없는 경우 두 번째 자음을 제거한다. “attitude” → “attd”
9b 모음 삽입: 연속 자음 제거 후 결과 약어의 길이가 4글자 미만일때,
1. 원본 단어에서 자음과 모음의 상대적 위치를 기준으로 모음을 삽입.
2. 자음을 유지하며 원본 단어에서 추출된 모음 중 필요한 만큼만 삽입하여 4글자로 만든다. “attire” → “atir”
3. 자음을 우선적으로 배치하고, 4글자가 될 때까지만 모음을 추가한다. “pattern” → “ptrn”
10 자음만으로 만든 약어가 4글자 미만인 경우:
10a 원본 단어에서 첫 모음의 상대적 위치를 파악한다.
10b 추출된 자음 사이의 동일한 상대적 위치에 해당 모음을 삽입한다.
그래도 4글자가 안되면 다음 모음에 대해 a, b를 반복한다. “title” → “titl”
4단계 후처리 및 검증
11 생성된 모든 약어는 기존 약어들과 중복되지 않아야 한다.
12 약어 중복이 발생하면, 먼저 4글자 약어를 생성하고 남은 자음을 차례로 추가한다. 그래도 약어 중복이 발생하면 원래 단어의 모음을 앞에서부터 순서대로 하나씩 추가하여 새로운 약어를 생성한다. 이 과정은 중복이 해결될 때까지 반복한다. 따라서, 4글자를 초과할 수 있다. 출력: Print → PRNT (중복)
부모: Parent → PRNT (중복)
출력: Print → PRNT
부모: Parent → PARNT
5단계 표현 규칙
13 약어는 대문자로 쓰되 프로그래밍에선 소문자로 사용한다. “PTRN” (코드에서 “ptrn”)
14 약어는 기본적으로 4글자로 구성하되, 널리 알려진 고유명사나 관용적 표현(예: TCP/IP, RAM 등)의 경우 글자 수 제한을 적용하지 않는다. “RAM” 그대로 유지

2.4.5 복합어 사용 규칙

순번 규칙 및 설명 예시
1 • 업무적 또는 관용적으로 자주 쓰이는 표현이나 단일어 단위로 구분해서 사용할 경우 의미 전달이 불분명해질 수 있는 단어에 대해서는 복합어로 구성 사용한다 양성대조군(Positive Control) = 양성(Positive) + 대조군(Control)
계좌번호(Account Number) = 계좌(Account)+번호(Number)
2 • 고유명사(기관명 포함)는 단일어 형태로 사용한다. Linked+in (X)
Linkedin (O)
3 • 접두사 및 접미사와 합성된 단어는 단일어 형태로 사용한다 재[再]발급
지급처[處]
비[非]활성화
4 • 두 개 이상의 단일어로 이루어졌으나 별도의 영문 단어가 존재하며 각 단일어의 조합과는 다른 의미를 지니게 되는 경우 단일어 형태로 사용한다. 매개변수 (Parameter) ≠ 매개 (Medium)+ 변수(Variable)
변화비율(rate) ≠ 변화(Change) + 비율(Proportion)
감가상각(Depreciation) ≠ 감가(Reduction) + 상각(Repayment)
5 • 한글과 외래어가 결합되어 사용되거나 기타 사용 원칙에 부합하지 않더라도 관용적으로 자주 사용되며 의미가 명확한 경우 사용한다. (관용적 표현) 지블록 (gblock)
파레트수량
6 • 유형의 구분을 나타내는 복합 단어는 단어로 식별하지 않도록 한다. 이때에는 유형을 대표하는 다른 단어 또는 용어로 대체하도록 한다. 단, 관용적으로 자주 쓰이는 표현이면서 대체 단어 또는 용어 구성이 어렵다면 사용을 허용한다. 제품유형(X) \(\rightarrow\) 제품코드(O)
계정유형(X) \(\rightarrow\) 계정등급(O)

2.4.6 숫자와 단위 사용 규칙

순번 규칙 및 설명 예시
1 • 숫자 사용 시 아라비아 숫자 사용을 원칙으로 한다 삼순위(X) → 3순위(O)
2 • 숫자만으로는 단어가 될 수 없고 해당 숫자의 의미를 나타내는 단어와 함께 조합하여 사용한다 6(X) → 6개월(O)
3 • 숫자와 단위의 합성어는 단일어로 등록한다 100퍼센트, 91일
4 • 모든 단위는 US Customary system이 아닌 SI 단위계(Système International d’Unités, 국제단위계)을 기본으로 한다.
잘모르겠으면 일상생활에서 Metric System(미터법)이라고 불러도 웬만하면 크게 다르지 않을 것이다.
과학시간에 배웠던 단위들을 의미한다.
inch(X) → cm(O)
ft(X) → m(O)
oz(X) → g(O)
lb(X) → kg(O)
5 • 단위 앞에 올 수 있는 숫자의 유효값이 제한적인 경우 유효한 단어를 모두 등록한다. 1월,2월 ~ 12월
1분기,2분기,3분기,4분기
1순위,2순위,3순위
6 • 단위 앞에 올 수 있는 숫자의 유효값이나 범위가 제한이 없는 경우 해당 단위를 등록하고 최소 1단위와 합성된 단어를 등록한다 퍼센트 - 1퍼센트
개월 -1개월
차 - 1차
급 - 1급
7 • 숫자 단위 대에 따라 표준을 다르게 정의할 경우 각각을 단어로 등록할 수 있다 1원,1십원,1천원,
1만원,1십만원,
1백만원,1천만원
8 • 숫자와 조합된 단어의 의미가 불분명한 경우는 해당 단어의 사용을 지양한다
단, 의미가 불분명한 단어임에도 업무상의 필요로 인해 등록이 불가피한 경우 단어 뒤에 숫자를 붙여서 정의한다
컬럼1(X)
※ 단 불가피한 경우 사용

2.4.7 동음이의어 및 이음동의어 사용 규칙

순번 규칙 및 설명 예시
1 • 동음이의어(Homonym)는 허용하지 않는다
- (대체방안1) 다른 한글단어로 교체하여 표준 단어로 등록하여 사용한다.
- (대체방안2) 어감상 동음이의어인데도 불구하고 ’의사’라는 단오를 꼭 써야 하는 경우는 ’의사결정’식의 복합 단어를 표준단어로 등록하여 사용한다
• 단, 대체 단어가 없는 경우 사용할 수 있다 (한글 명이 같더라도 영문 명은 반드시 달라야 한다) 이 경우 데이터 표준관리자 및 모델관리자에게 검토 요청을 신청 한다
설명(explanation) : 설명
설명(description) : 상세설명
설명(comment) : 코멘트
다리(leg) : 다리
다리(bridge) : 교량
의사(doctor) : 의사
의사(idea)결정(Decision):의사결정
2 • 이음동의어(Synonym)는 용어의 혼돈과 용어생성 시 중복발생 가능성 때문에 가급적 사용하지 않는다.
• 대표단어를 정하고, 그 대표 단어만을 사용하도록 하며 나머지는 금칙어로 등록하여 사용을 제한하도록 한다
•단어명에 해당되는 모든 비표준어는 금칙어로 등록한다.
핸드폰(X), 셀폰(X), 폰(X), 핸폰(X), 핸펀(X) → 휴대폰(O)
※ 핸드폰(X), 셀폰(X), 폰(X), 핸폰(X), 핸펀(X)은 금칙어로 등록
로그인ID, 로그인명, 로그인이름, 어카운트 (X) → 계정(Account) (O)
※ 로그인ID, 로그인명, 로그인이름, 어카운트 (X)는 금칙어로 등록

2.4.8 금칙어 사용 규칙

순번 규칙 및 설명 예시
1 • 이음동의어는 대표 단어만을 표준단어로 정의하여 사용하도록 하며, 나머지 이음 동의어의 단어들은 금칙어로 정의하여 사용을 사전에 방지한다. 나이(X) → 연령(O)
금일(X) → 당일(O)
2 • 축약된 형태의 단어(축약어)는 금칙어로 정의하여 사용을 사전에 방지한다. 주민번호(X) → 주민등록번호(O)
3 • 사람에 해당하는 접미사 “자”와 “인”으로 구성된 복합어의 경우에는 사용빈도가 높은 단어를 표준단어로 정의하고, 다른 나머지 단어를 금칙어로 관리하여 사용을 사전에 방지한다 장애자(X) → 장애인(O)
신청인(X) → 신청자(O)
4 • 한글 맞춤법을 고려하지 않고 관용적으로 사용되던 단어들은 금칙어로 정의하여 사용을 사전에 방지한다. 갯수(X) → 개수(O)
써비스(X) → 서비스(O)
5 • 영문 단어의 경우 한글화를 원칙으로 한다. 단, 한글 단어 보다 더 친숙하게 사용되는 영문 단어의 경우에는 그 영문 단어를 사용한다. 이렇게 선정된 단어에 대응되는 영문 혹은 한글 단어는 금칙어로 등록하고 사용을 제한하도록 한다 ERROR(X) → 에러(O)
FAX(X) → 팩스(O)
EMAIL(X) → 이메일(O)
아이피(X) → IP(O)
6 • 범용적으로 사용되는 외래어의 경우 사용할 수 있지만 표기법을 고려하여 표준 단어를 지정하고, 나머지 단어는 금칙어로 등록하여 사용을 제한하도록 한다 EXPOSURE(X), 익스포저(X) → 익스포져(O),
화일(X), FILE(X) →파일(O)
7 • 전문 업무용어 중 관용적으로 영문의 두문자어(頭文字語:Acronyms)를 사용하는 경우 한글단어는 금칙어로 정의한다.
8 • 기관명 등이나 고유명사 등은 전체 단어를 표준으로 사용하고, 한글 약어는 금칙어로 등록한다.
9 • 시스템명중 관용적으로 영문의 두문자어(頭文字語:Acronyms)를 사용하는 경우 한글단어는 금칙어로 정의한다 데이터웨어하우스(X) → DW(O)

2.5 제작 과정

2.5.1 준비 단계

  • 표준 단어 사전의 목적과 범위를 명확히 한다.
    • 목적이라 함은 데이터 일관성 확보(동일한 의미의 데이터 사용), 데이터 품질 향상 (데이터 처리 과정 비용 감소), 시스템 통합 지원 (여러 시스템 간 데이터 매핑과 통합), 규제 준수 지원 등을 의미한다.
    • 범위는 대상 데이터 범위, 조직적 범위, 시스템 범위 등을 의미하며, 너무 광범위한 영역은 제작 실패로 이어진다.
  • 이해관계자 식별: 관련 부서와 담당자들을 파악한다.
  • 거버넌스 체계 수립: 단어 사전 관리를 위한 조직과 프로세스를 정립한다.

2.5.2 데이터 수집

  • 기존 데이터 모델, 데이터베이스 스키마, 업무 문서 등에서 사용 중인 단어들을 수집한다.
  • 업무 도메인별로 사용되는 용어들을 취합한다.

2.5.3 단어 분석 및 정제

  • 동의어, 유사어, 약어 등을 식별한다.
  • 업무 영역별 용어의 의미와 사용 맥락을 분석한다.
  • 불필요하거나 중복된 단어들을 제거한다.

2.5.4 표준화 규칙 수립

  • 약어 사용 규칙, 대소문자 규칙 등의 명명 규칙을 정의합니다.
  • 단어 정의 형식을 standardization 합니다.
  • 도메인별 특수 규칙을 설정한다.
    • 유용한 데이터 표준안을 만들기 위해 조직 내의 각 업무 영역 또는 데이터 도메인에 맞는 고유한 규칙이나 지침을 만들어야 한다.
    • 도메인 식별: 재무, 인사, 마케팅, 제조, 고객 서비스 등
    • 각 도메인별 특수성 파악: 해당 도메인에서만 사용되는 용어나 개념과 도메인 특유의 데이터 형식이나 제약 조건
    • 예시
      • 재무 도메인의 통화 표기 규칙: “USD 1,000.00” 또는 “1,000,000 원” 형식 사용
      • 재무 도메인의 회계 기간 표현: “FY2023Q2” (2023 회계연도 2분기)
      • 인사 도메인의 직급 코드 체계: “M” (매니저), “D” (디렉터)
      • 인사 도메인의 근속 연수 계산 규칙: 입사일 기준, 월 단위 반올림
      • 마케팅 도메인의 캠페인 코드 형식: “CAM_2023_SUMMER_01”
      • 마케팅 도메인의 고객 세그먼트 분류 기준: “VIP”, “REGULAR”, “NEW”
      • 제조 도메인의 제품 코드 체계: “PROD-A01-R” (제품군-모델번호-버전)
      • 제조 도메인의 품질 등급 표기: “A”, “B”, “C” 등급 사용

2.5.5 표준 단어 선정

  • 분석된 단어들 중 표준으로 사용할 단어들을 선정
  • 선정 기준을 명확히 하고, 이해관계자들의 합의를 도출
  • 선정 기준 예시
    • 명확성
      • 의미가 명확하고 모호하지 않은 단어 선정 (일반적인 단어는 한정시킬 것)
      • 예: “고객” 대신 “활성고객”과 “비활성고객”으로 구분
    • 일관성
      • 조직 전체에서 일관되게 사용할 수 있는 단어
      • 예: 부서별로 다르게 사용되던 용어를 하나로 통일
    • 간결성
      • 가능한 간단하고 간결한 단어
      • 예: “제품구매고객정보” 대신 “구매자정보”
    • 유일성
      • 중복되지 않는 고유한 의미를 가진 단어
      • 예: 동음이의어 피하기
    • 업계 표준 부합성
      • 가능한 업계에서 널리 사용되는 표준 용어 선택
      • 예: 금융업계의 “ROI” (Return on Investment)
    • 확장성
      • 향후 변화나 확장을 고려한 단어 선택
      • 예: “2023년예산” 대신 “연간예산”
    • 이해 용이성
      • 비전문가도 이해하기 쉬운 단어
      • 예: 전문 용어보다는 일반적인 비즈니스 용어 선호
    • 번역 가능성
      • 다국어 지원이 필요한 경우, 번역이 용이한 단어
      • 관용구나 은유적 표현 피하기
    • 기존 시스템 호환성
      • 기존 시스템과의 호환성을 고려한 단어
      • 예: 레거시 시스템의 주요 용어 유지
    • 법규 및 규제 준수
      • 관련 법규나 규제를 준수하는 단어
      • 예: 개인정보보호법에 부합하는 용어 선택
    • 도메인 적합성
      • 해당 업무 도메인에 적합한 단어
      • 예: 금융 도메인에서는 “이자율”, 제조 도메인에서는 “불량률”
    • 측정 가능성
      • 정량적 측정이 가능한 개념을 나타내는 단어
      • 예: “고객만족도” (1-5 척도로 측정 가능)
    • 약어 사용 규칙
      • 약어 사용 시 일관된 규칙 적용
      • 규칙에 부합하지 않는 관용어는 관용어 사용을 유지하는 것이 좋다.
      • 예: “고객번호”를 “CUST_NO”로 통일

2.5.6 메타데이터 정의

  • 각 단어에 대한 상세 정보를 정의 (정의, 동의어, 사용 예시, 관련 업무 영역 등).
  • 단어 간의 관계를 정의 (상위어, 하위어, 관련어 등)

2.5.7 검토 및 승인 프로세스

  • 선정된 표준 단어들에 대해 관련 부서와 전문가들의 검토를 받는다.
  • 필요시 수정하고 최종 승인을 받는다.

2.5.8 표준 단어 사전 구축

  • 승인된 단어들을 데이터베이스나 전문 도구에 등록한다. (엔코아, Microsoft Purview 등)
  • 검색, 조회, 관리가 용이한 형태로 구성한다.

2.5.9 배포 및 교육

  • 완성된 표준 단어 사전을 조직 내에 공유
  • 사용 방법과 중요성에 대한 교육을 실시

2.5.10 지속적인 관리

  • 새로운 단어 추가, 기존 단어 수정, 폐기 등의 프로세스를 수립한다.
  • 정기적인 검토와 업데이트를 수행한다.
  • 사용 현황을 모니터링하고 피드백을 수집한다.

2.5.11 통합 및 연계

  • 데이터 모델링, 시스템 개발, 보고서 작성 등의 프로세스와 표준 단어 사전을 연계한다
    • 연계 순서는 각 상황마다 다르다.
    • 이미 ERD와 DB가 존재하는 시스템들을 통합하는 상황이라면 표준 단어 사전을 순서상 나중에 제작하는 것이 유리하다
    • 그 반대라면 표준 단어사전을 먼저 만들어 DB를 만드는 것이 유리할 수 있다.
  • 다른 데이터 관리 도구들과의 통합을 고려한다.

2.6 표준 단어 사전 예시

  • 예시 1

표준 단어 사전 예시1
  • 예시 2

표준 단어 사전 예시2
  • 예시 3
단어 ID 한글명 한자 영문명 영문약어 정의 도메인 데이터 타입 길이 허용값 관련 업무 영역 사용 예시 동의어/유사어 상위어 하위어 등록일 최종 수정일 승인 상태
W001
W002
W003

칼럼 설명:

  1. 단어 ID: 각 단어의 고유 식별자
  2. 한글명: 한글로 된 단어명
  3. 한자: 해당 단어의 한자 표기 (필요한 경우)
  4. 영문명: 영문으로 된 단어명
  5. 영문약어: 영문 약어 (필요한 경우)
  6. 정의: 단어의 명확한 정의
  7. 도메인: 해당 단어가 속한 비즈니스 도메인
  8. 데이터 타입: 해당 단어의 데이터 타입 (예: VARCHAR, INTEGER 등)
  9. 길이: 데이터 길이
  10. 허용값: 허용되는 값의 범위 또는 목록
  11. 관련 업무 영역: 해당 단어가 주로 사용되는 업무 영역
  12. 사용 예시: 실제 사용 예시
  13. 동의어/유사어: 관련된 동의어나 유사어
  14. 상위어: 해당 단어의 상위 개념 단어 (여러 개일 경우 쉼표로 구분)
    • 상위어: 이해관계자
  15. 하위어: 해당 단어의 하위 개념 단어들 (여러 개일 경우 쉼표로 구분)
    • 하위어: 개인고객, 법인고객, VIP고객
  16. 등록일: 단어가 사전에 처음 등록된 날짜
  17. 최종 수정일: 마지막으로 수정된 날짜
  18. 승인 상태: 현재 승인 상태 (예: 승인됨, 검토 중, 폐기 등)

이 템플릿은 조직의 필요에 따라 수정하거나 필드를 추가/제거할 수 있다.

Subscribe

Enjoy this blog? Get notified of new posts by email: