앞서 데이터를 관리에 있어 필요한 메타데이터, 데이터 리니지, 데이터 거버넌스의 개념에 대해서 알아보았다.
하지만 이러한 개념적인 부분 외에 실제 기업에서 데이터를 관리하기 위해 어떤 TOOL을 사용하고 있는지를 알아야 실제 기능을 체감할 수 있을 듯 하여 현재 상용중인 소프트웨어를 조사하게 되었다.
각 기업의 기술블로그를 기초로 어떤 사용 소프트웨어가 있는지 각 장단점을 정리하는 것을 목표로 한다.
데이터 디스커버리 플랫폼이란? (DDP, Data Discovery Platform)
- 다양한 곳에서 생성되고 만들어지는 데이터를 사용자가 파악하는 것이 어려워지고 히스토리를 파악하기 힘듦
- 데이터 이용자에게 어떤 데이터가 어디에 어떻게 생성되어 존재하는지에 관한 정보를 편리하게 제공
- 데이터 파악에 대한 시간을 줄여서 업무 효율성을 높일 수 있다.
- 해당 데이터를 직접 개발하지 않았어 데이터를 빠르고 쉽게 파악할 수 있다.
ex) 비슷한 이름을 가진 컬럼의 데이터가 어떤 차이가 있는지, 해당 테이블은 어떤 데이터를 담고 있는지 등등
- 대부분 각 데이터의 메타데이터를 관리하는데 중점을 둔다.
- 기존에 흩어져서 관리되던 테이블 스키마, 코멘트 등을 중앙관리할 수 있다.
필요 기능
기능 | 상세 |
데이터 검색 | 데이터 스키마, 필드, 테그, 코멘트, 사용정보 등등 |
데이터 접근 제어 | 데이터 접근 및 사용권한 관리, 사용자, 정책 |
데이터 계보 (데이터 리니지) | 파이프라인, 쿼리, API 로그, API 스키마 |
데이터 규정 | 데이터 개인 정보 보호, 규정 준수 주석 유형 분류 |
데이터 품질 | 데이터 품질 규칙 정의, 규칙 실행 결과, 데이터 통계 |
상용 데이터 디스커버리 플랫폼 비교
Datahub vs. Amundsen vs. OpenMetadata
DataHub | Amundsen | OpenMetadata | |
데이터 수집 방식 및 언어 | yaml 실행 | python crawling | yaml python crawling |
데이터 추출 | Kafka | python ETL framework | Airflow |
문서 기능 | 테이블, 컬럼 별 마크다운 문서 테이블, 컬럼 별 태그 부여 |
테이블, 컬럼 별 제한적인 문서 테이블 별 태그 부여 |
테이블 별 마크다운 문서 테이블, 컬럼 별 태그 부여 |
오너십 | 테이블 별 오너십 (유저, 그룹 기반) |
테이블 별 오너십 (유저 기반) |
테이블 별 오너십 (유저, 그룹 기반) |
데이터 계보(리니지) | 테이블, 컬럼 단위 시각화 (dbt, datafold 연동) |
테이블, 컬럼 단위 시각화 (dbt, alvin, data fold 연동) |
테이블, 컬럼 단위 시각화 (dbt 연동) |
인증 방식 | SSO(keycloak, okta, google auth 지원) 마스터 유저 존재 |
SSO(flask_oidc, okta, keycloak) 마스터 유저 없음 |
SSO( Azure AD, Google, Okta, Auth0, OneLogin ) |
권한 설정 | user & group 기반 정책 부여 (editing관련만 설정 가능) |
자체 권한 설정은 아직 지원하지 않음. | user & group 기반 정책 부여 (edit, view, delete, owner 등 다양) |
data source | bigquery, mysql, dbt, bigquery-usage, s3 | 29가지 지 (공식문서 참고) | 69가지 지원 (공식문서 참고) |
메타데이터 쿼리 | GraphQL API 이용하여 메타데이터 및 user data 등 쿼리 | neo4j에서 메타데이터 관련 쿼리 돌려볼 수 있음 | UI에서 메타데이 쿼리 검색 지원 |
공식 서포트 | 공식문서, 슬랙 | 공식문서, 슬랙 | 공식문서, 슬 |
참고 글
- 쏘카 : https://tech.socarcorp.kr/data/2022/02/25/data-discovery-platform-01.html
- 뱅크샐러드 : https://blog.banksalad.com/tech/the-starting-of-datadiscoveryplatform-era-in-banksalad/
- 링크드인 : https://www.linkedin.com/pulse/data-governance-discovery-ddpdata-platform%EB%A5%BC-%ED%99%9C%EC%9A%A9%ED%95%9C-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B3%B4%EC%95%88-querypie-01-6wylc/
- datahub vs openmetadata : https://atlan.com/openmetadata-vs-datahub/
- 데이터 보안 : https://www.linkedin.com/pulse/data-governance-discovery-ddpdata-platform%EB%A5%BC-%ED%99%9C%EC%9A%A9%ED%95%9C-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B3%B4%EC%95%88-querypie-01-6wylc/
- datahub : https://www.linkedin.com/blog/engineering/data-management/datahub-popular-metadata-architectures-explained
'데이터 > 데이터 관리' 카테고리의 다른 글
OLAP vs. OLTP (0) | 2024.07.28 |
---|---|
메타데이터 관리 (0) | 2024.05.19 |
데이터 거버넌스란? (Data Governance) (0) | 2024.05.07 |
데이터 리니지란? (Data Lineage) (1) | 2024.05.02 |
댓글