본문 바로가기

데이터/데이터 관리5

OLAP vs. OLTP 그동안은 대부분의 데이터를 Data Warehouse 형태로 다루어왔었지만 직접적으로 웹 서비스와 긴밀하게 연관된 데이터의 경우 Data Mart에 직접적으로 CUD를 하는 경우가 많다.보통 Data Scientist들이 분석환경에서 사용하는 데이터는 Warehouse, 서비스에 직접적으로 사용되는 데이터는 Mart 형태로 제공되는데 해당 내용과 이유에 대해 조사한 내용을 기록할 예정이다.  OLAP 이란?정의OLAP = OnLine Analytical Processing 다양한 관점에서 비지니스 데이터를 분석하는 데 사용할 수 있는 "소프트웨어 기술"여러곳에서 수집된 다양한 형태의 데이터를 한 곳에 모아(Data Warehouse), 범주(Category, Data Mart)를 나누고 기업이 전략을 만.. 2024. 7. 28.
데이터 디스커버리 플랫폼 앞서 데이터를 관리에 있어 필요한 메타데이터, 데이터 리니지, 데이터 거버넌스의 개념에 대해서 알아보았다. 하지만 이러한 개념적인 부분 외에 실제 기업에서 데이터를 관리하기 위해 어떤 TOOL을 사용하고 있는지를 알아야 실제 기능을 체감할 수 있을 듯 하여 현재 상용중인 소프트웨어를 조사하게 되었다.각 기업의 기술블로그를 기초로 어떤 사용 소프트웨어가 있는지 각 장단점을 정리하는 것을 목표로 한다.데이터 디스커버리 플랫폼이란? (DDP, Data Discovery Platform)다양한 곳에서 생성되고 만들어지는 데이터를 사용자가 파악하는 것이 어려워지고 히스토리를 파악하기 힘듦데이터 이용자에게 어떤 데이터가 어디에 어떻게 생성되어 존재하는지에 관한 정보를 편리하게 제공데이터 파악에 대한 시간을 줄여서 .. 2024. 5. 26.
메타데이터 관리 ETL작업을 진행하며 가장 힘들었던 것은 원천데이터를 파악하는 것이었다.각 DB의 테이블명과 컬럼명만으로는 어떤 테이블인지 각 컬럼이 어떤 데이터인지 알기가 힘들었고,이후 ETL 작업이 완료 된 뒤에는 각 Mart table의 메타데이터를 확인하기 힘들어 유지보수에 애를 먹었다.또한 현업에게 데이터를 제공하는 과정에서 용어의 차이로 의사소통이 수월하지 못했다.이런 과정을 거쳐 DW를 관리함에 있어 메타데이터를 한 눈에 관리할 수 있는 기능이 필요하다 생각했고 해당내용에 대해 공부한 기록을 남길예정이다. 메타데이터란?데이터의 통합적인 관리를 위해서 파악해야 하거나 통제해야 할 대상이나 항목DB Schema데이터 구조데이터 표준데이터 흐름데이터 권한...RDB 기준 메타데이터비즈니스 메타데이터비즈니스 사용자.. 2024. 5. 19.
데이터 거버넌스란? (Data Governance) 정의데이터 수집, 저장, 처리, 폐기 방법에 적용되는 내부 표준(데이터 정책)을 설정하는 것.데이터를 어떻게 수집 할 것인지데이터를 어디에 어떻게 저장 할 것인지데이터의 가명화처리나 보관주기, 백업 주기등을 어떻게 할 것인지저장주기를 넘은 데이터를 어떻게 폐기할 것인지 데이터의 권한관리를 어떻게 할 것인지...데이터의 보안, 개인정보 보호, 정확성, 가용성, 사용성을 보장하기 위해 수행하는 모든 작업사람이 취해야 하는 조치, 따라야 하는 프로세스, 데이터의 전체 수명주기 동안 이를 지원하는 기술이 포함데이터 리니지도 데이터 거버넌스의 일부라 볼 수 있다.구성요소데이터 관리 (메타데이터 관리, 데이터 사전 구축, 데이터 저장소 관리, ...)데이터 보호 (데이터 보안 정책, 접근제어, 암호화기술, 백업 및.. 2024. 5. 7.
데이터 리니지란? (Data Lineage) 데이터 리니지란?Data Flow에 따라 데이터가 Transform 될 때 원천이 되는 Source 데이터가 어떤 것인지 알 수 있도록 하는 방법론데이터의 흐름을 시각화하는 것.등장배경기업 업무의 복잡성, 시스템 간 연계 증가 → 데이터 계보 파악 니즈 증가예시 : DW기반 기업에서 BI 데이터 정합성 문제목적 개인정보 보호→데이터의 출처와 이동경로를 추적함으로써, 데이터 유출이나 오용을 방지데이터의 신뢰성과 품질을 보장→ 의사결정과정에서 중요하게 여겨지는 부분오류 원인 이해 및 수정데이터 중복 식별 및 방지를 통한 운영 간소화 및 비용절예시1고객이 고객 서비스 센터에 전화를 걸어 주소변경을 요청할 경우데이터 리니지는 다른 시스템이 새 주소로 업데이트 되는 데이터 프로세스를 보여줌.특징데이터 생명주기생성.. 2024. 5. 2.