ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 모델링29 - 데이터 표준화는 모델링의 과정이다2
    Data Base/관계형 데이터 모델링 2023. 9. 28. 15:34

    데이터 표준화가 지켜지지않아 일어나는 성능 저하

    그림 13-2 데이터 타입의 특성 때문에 실제 저장된 값이 달라진다.

    데이터 표준화의 목적은 단순히 용어의 통일과 일관성만이 아니다. 표준 미준수는 성능 저하와 시스템 장애의 직접적인 원인이 되기도 한다. [그림 13-2]의 사례는 조인할 두 테이블 a와b의 연결고리인 <고객구분코드> 컬럼의 데이터 타입이 서로 다른 경우다. 컬럼명과 저장된 값이 같음에도 불구하고 원하는 결과를 얻을 수 없다. 원인은 오라클DBMS의 CHAR타입의 특성 때문이다. CHAR는 고정 길이 타입으로, 정의된 깅이 미만의 값이 들어오면 나머지는 공백으로 채운다. 따라서 1234와 1234⌈ ⌋는 일치하지 않는 값으로 처리되어 원하는 결과를 얻기 못하는 것이다.

     

    그림 13-3 값이 값아도 형변환이 되어 인덱스를 사용할 수 없다.

    [그림 13-3] 의 사례는 원하는 결과는 조회되지만, 수행 속도가 지극히 좋지 않은 경우다. 물론 두 테이블의 조인 연결고리인 <고객코드>컬럼에는 인덱스가 존재한다. SQL튜닝에 관심있는 독자라면 금방 눈치 챘겠지만, DBMS의 옵티마이저는 비교 대상 컬럼의 데이터 타입이 다를 경우 이를 일치시키기 위한 형변환을 수행한다. 이 형변환 때문에 인덱스를 사용할 수 없게 되어 테이블 전체 스캔이 이루어지는 것이다.

     

    앞의 두 사례는 데이터 표준화의 대상 중 하나이 표준 도메인이 적용되지 않아서 발생한 문제다. 정보 항목의 이름뿐 아니라 정보 항목을 표현할 값의 형태도 반드시 표준화해야 함을 이제는 공감할 것이다. 데이터의 저장 형태를 유형화하고 이를 표준화화는 개념이 바로 표준 도메인이다.

     

    그림 13-4 일관되지 않은 데이터가 산재한 시스템을 통합해야 한다면?

    데이터 표준화가 제대로 되어 있지 않으면 데이터 통합 시에도 많은 어려움을 겪게 된다. 데이터웨어하우스에서 [그림 13-4]와 같이 일관성 없이 산재되어 있는 데 이터를 통합해야 한다면 많은 어려움이 따를 것이다.

     

    표 13-2 고품질 표준 데이터를 관리하기 위한 각자의 역할

    구분 역할
    개발자 데이터 표준화 중요성 인식,데이터 표준화 지침 숙지, 메타데이터 신규 신청시 시 이음동의어 존재여부 확인,구체적이면 명확한 형태로 메타데이터 정의
    표준화 담당자,DA 금칙어, 유사어 관리, 등록 요청괸 메타데이터의 적정성 분석, 이음도의어 확인, 오류 패턴에 대한 개발자 가이드를 통한 조직 학습 유도
    메타데이터 관리시스템 동음이의어,이음동의어가 자료사전에 등록되는 것을 필터링할 수 있는 다양한 로직적용, 이음동의어를 구조적으로 분석할 수 있는 기능 제공

     

    [출처 - 프로젝트의 성패를 결정짓는 데이터 모델링 이야기 , 김상래 저]

     

    댓글

Designed by Tistory.