본문 바로가기
데이터/데이터 관리

데이터 디스커버리 플랫폼

by Sunyoung95 2024. 5. 26.
앞서 데이터를 관리에 있어 필요한 메타데이터, 데이터 리니지, 데이터 거버넌스의 개념에 대해서 알아보았다. 
하지만 이러한 개념적인 부분 외에 실제 기업에서 데이터를 관리하기 위해 어떤 TOOL을 사용하고 있는지를 알아야 실제 기능을 체감할 수 있을 듯 하여 현재 상용중인 소프트웨어를 조사하게 되었다.

각 기업의 기술블로그를 기초로 어떤 사용 소프트웨어가 있는지 각 장단점을 정리하는 것을 목표로 한다.

데이터 디스커버리 플랫폼이란? (DDP, Data Discovery Platform)

데이터 보안을 위한 DDP의 활용

  • 다양한 곳에서 생성되고 만들어지는 데이터를 사용자가 파악하는 것이 어려워지고 히스토리를 파악하기 힘듦
  • 데이터 이용자에게 어떤 데이터가 어디에 어떻게 생성되어 존재하는지에 관한 정보를 편리하게 제공
    • 데이터 파악에 대한 시간을 줄여서 업무 효율성을 높일 수 있다.
    • 해당 데이터를 직접 개발하지 않았어 데이터를 빠르고 쉽게 파악할 수 있다.
      ex) 비슷한 이름을 가진 컬럼의 데이터가 어떤 차이가 있는지, 해당 테이블은 어떤 데이터를 담고 있는지 등등
  • 대부분 각 데이터의 메타데이터를 관리하는데 중점을 둔다.
    • 기존에 흩어져서 관리되던 테이블 스키마, 코멘트 등을 중앙관리할 수 있다.

필요 기능

기능 상세
데이터 검색 데이터 스키마, 필드, 테그, 코멘트, 사용정보 등등
데이터 접근 제어 데이터 접근 및 사용권한 관리, 사용자, 정책
데이터 계보 (데이터 리니지) 파이프라인, 쿼리, API 로그, API 스키마 
데이터 규정 데이터 개인 정보 보호, 규정 준수 주석 유형 분류
데이터 품질 데이터 품질 규칙 정의, 규칙 실행 결과, 데이터 통계

 

상용 데이터 디스커버리 플랫폼 비교

Datahub vs. Amundsen vs. OpenMetadata

  DataHub Amundsen OpenMetadata
데이터 수집 방식 및 언어 yaml 실행 python crawling yaml
python crawling
데이터 추출 Kafka python ETL framework  Airflow
문서 기능 테이블, 컬럼 별 마크다운 문서
테이블, 컬럼 별 태그 부여
테이블, 컬럼 별 제한적인 문서
테이블 별 태그 부여
테이블 별 마크다운 문서
테이블, 컬럼 별 태그 부여
오너십 테이블 별 오너십
(유저, 그룹 기반)
테이블 별 오너십
(유저 기반)
테이블 별 오너십
(유저, 그룹 기반)
데이터 계보(리니지) 테이블, 컬럼 단위 시각화
(dbt, datafold 연동)
테이블, 컬럼 단위 시각화
(dbt, alvin, data fold 연동)
테이블, 컬럼 단위 시각화
(dbt 연동)
인증 방식 SSO(keycloak, okta, google auth 지원)
마스터 유저 존재
SSO(flask_oidc, okta, keycloak)
마스터 유저 없음
SSO( Azure AD, Google, Okta, Auth0, OneLogin )
권한 설정 user & group 기반 정책 부여
(editing관련만 설정 가능)
자체 권한 설정은 아직 지원하지 않음. user & group 기반 정책 부여
(edit, view, delete, owner 등 다양)
data source bigquery, mysql, dbt, bigquery-usage, s3 29가지 지 (공식문서 참고) 69가지 지원 (공식문서 참고)
메타데이터 쿼리 GraphQL API 이용하여 메타데이터 및 user data 등 쿼리 neo4j에서 메타데이터 관련 쿼리 돌려볼 수 있음 UI에서 메타데이 쿼리 검색 지원
공식 서포트 공식문서, 슬랙 공식문서, 슬랙 공식문서, 슬

참고 글

'데이터 > 데이터 관리' 카테고리의 다른 글

OLAP vs. OLTP  (0) 2024.07.28
메타데이터 관리  (0) 2024.05.19
데이터 거버넌스란? (Data Governance)  (0) 2024.05.07
데이터 리니지란? (Data Lineage)  (1) 2024.05.02

댓글