ETL작업을 진행하며 가장 힘들었던 것은 원천데이터를 파악하는 것이었다.
각 DB의 테이블명과 컬럼명만으로는 어떤 테이블인지 각 컬럼이 어떤 데이터인지 알기가 힘들었고,
이후 ETL 작업이 완료 된 뒤에는 각 Mart table의 메타데이터를 확인하기 힘들어 유지보수에 애를 먹었다.
또한 현업에게 데이터를 제공하는 과정에서 용어의 차이로 의사소통이 수월하지 못했다.
이런 과정을 거쳐 DW를 관리함에 있어 메타데이터를 한 눈에 관리할 수 있는 기능이 필요하다 생각했고
해당내용에 대해 공부한 기록을 남길예정이다.
메타데이터란?
- 데이터의 통합적인 관리를 위해서 파악해야 하거나 통제해야 할 대상이나 항목
- DB Schema
- 데이터 구조
- 데이터 표준
- 데이터 흐름
- 데이터 권한
- ...
- RDB 기준 메타데이터
- 비즈니스 메타데이터
- 비즈니스 사용자가 DW나 DM를 이해하기 쉽도록 비즈니스 관점에서 표현하여 제공하는 데이터.
- DW내의 리포트, 질의, 데이터의 종류, 데이터의 위치, 운영계 데이터의 변환 규칙 등등
- 테크니컬 메타데이터
- ETL 기능을 수행하고 소스 데이터 위치와 형태 정보
- 소스데이터를 DW 형태로 변환하기 위해 필요한 로직을 보유하고 있는 데이터
- DW 개발자나 관리자로 하여금 데이터의 정확성을 확신하는 용도록 사용.
- 시스템의 유지보수나 확장에 필수적임.
- 데이터의 죄종 변경 시간, 엔티티의 정의 등등
- 비즈니스 메타데이터
메타데이터 관리 시스템
효능
- 메타데이터는 현재 DW가 가지고 있는 모든 정보에 대해 알 수 있으므로 데이터의 중복을 최소화하며, 유지 보수 및 변경 관리를 효율적으로 수행하게 해준다.
- 메타데이터 관리 시스템을 구축할 경우 각 데이터 베이스에 대한 상세 설명은 물론 데이터 유형, 담당자, 보관 주기, 데이터간의 매핑 관계, 작업 흐름도 등을 효과적으로 관리할 수 있게 된다.
- 작게는 데이터리니지부터 크게는 데이터 거버넌스를 아우른다.
- 효율적인 데이터 위치 검색 및 활용 용이성 제공 → 데이터 활용도 향상 및 가치향상
- 데이터가 변경 되었을 경우 데이터 상관관계가 분명하므로 상대적으로 오류가 적은 프로그램 구현 가능
주요기능
- 메타데이터 수집
- 메타데이터 통제 및 조정
- 기존 시스템에 변경이 발생할 경우 데이터의 변경사항을 파악하고 영향도분석 후 통제 및 조정을 수행
- 메타데이터를 여러 사람들이 활용할 수 있도록 제공
- DA, DBA 등 데이터 관리자 뿐 아니라 시스템 개발자, 전산 책임자, 업무를 수행하는 현업들까지 활용해야하므로, 사용자 그룹별로 원하는 메타데이터를 손쉽게 팢아볼 수 있는 기능을 제공한다.
메타데이터 수집방안
- 메타데이터를 수집하고 체계화하여 데이터 품질관리 및 흐름관리를 하는 것이 중요하다. 이를 통해 기업의 비즈니스 운영에 필요로 하는 정보를 빠르고 정확하게 공급할 수 있다.
절차 | 방법 | 중요성 |
1. 데이터 구조 정보 습득 | DBMS의 Catalog를 통한 물리적 DB Schema 정보 수집 | 기본적인 데이터 구조 파악 |
부족한 데이터 설명 수집 | 사용자들이 데이터를 쉽게 파악할 수 있게 하기 위함 | |
데이터 표준 정립 및 기존 시스템과의 매핑 | 데이터 표준이 정해져 있다면 모든 사람들이 데이터 관련 용어나 내용을 정확하게 이해하고 의사소통을 할 수 있다. | |
2. 데이터간 상호 연계성 파악 | 데이터 구조 파악 | 중복 데이터 파악 및 일관성 유지 |
데이터 품질 점검 | 데이터 정합성 검증 데이터를 신뢰하고 사용할 수 있는 환경구축 |
참고
'데이터 > 데이터 관리' 카테고리의 다른 글
OLAP vs. OLTP (0) | 2024.07.28 |
---|---|
데이터 디스커버리 플랫폼 (0) | 2024.05.26 |
데이터 거버넌스란? (Data Governance) (0) | 2024.05.07 |
데이터 리니지란? (Data Lineage) (1) | 2024.05.02 |
댓글