본문 바로가기

데이터/Architecture3

CDC Architecture CDC 란?CDC = Change Data Capture데이터의 변경사항을 추적하여 저장하거나 해당 변경사항에 응답해야하는 다른 시스템과 서비스에 경고하는 데이터 통합패턴예를 들어 배민에서는 CDC 패턴을 통해 내부 업무 요청건에 변경사항이 생겼을 경우 실시간 알람을 보내는 서비스를 구축했다. (https://techblog.woowahan.com/10000/) 사용 예시 서비스 중단 없이 데이터 이전 (On-premise To Cloud)DataWarehouse로의 실시간 데이터 적재 원본DB와 캐시간의 데이터 일관성 보장 검색 인덱스 실시간 구성  사용 Tool 예시OLTPRDBMS : Mysql, Postgresql, ...NoSQL : MongoDB, Elasticsearch, ...Capture.. 2024. 8. 10.
Star Schema 란? 도입목적한정적인 자원에서 대량의 데이터를 저장하고 효율적으로 읽을 수 있는 DW기법의 필요성예를들어 Fact Table에 모든 데이터가 한글로 저장이 되고 있다면 각 글자 별로 2byte가 필요하게 됨. 따라서 INT와 같은 작은 숫자값을 이용하여 용량 사용의 효율성을 상승시킬 수 있다. (각 INT로 변환된 값들은 Dimension table에서 관리)데이터의 용량이 작아지며 대량의 데이터를 읽어들일 때 성능의 상승효과도 노릴 수 있다.Snowflake 구조와 다르게 적은 join으로 데이터를 분석할 수 있으므로 조회성능이 빠르다. 구조 구성 요소Fact Table 실제 측정된 값들을 저장한 테이블 (주문이력, 주식 가격, 환율, 온도, ...)기본적으로 value들은 코드값으로 저장되거나 숫자인 수치.. 2024. 8. 10.
Lambda Architecture 란 문서 작성시 Batch Architecture를 Lambda Architecture와 혼동하여 용어를 잘못기재했다... (진짜 똥멍청이)Lambda Architecture에 대한 이해도가 낮아서 발생한 일이라 생각하고다음부터는 이런 일을 방지하고자 Lambda Architecture에 대한 정의를 정리해서 머리에 콱 박아놓을 예정이다.(용어를 사용할 땐 꼭 확실히 이해한 뒤에 사용하자!!) Lambda Architecture정의Batch Process와 Stream Process 를 모두 활용하여 대량의 데이터를 처리하도록 설계된 아키텍처대량의 데이터를 실시간으로 분석하기 어려우므로 Batch를 통해 만들어진 데이터와 실시간 데이터를 혼합하여 사용하는 방식. 구성요소① Batch LayerBatch를 통.. 2024. 7. 29.