본문 바로가기

Spark Streaming2

실시간 데이터 수집-7 (Spark 설치 및 Spark Streaming 사용) 실시간 데이터를 원본그대로 수집하는 것 뿐만 아니라 가공하는 방법을 익히기 위해 Spark Streaming을 선택했다.실시간 데이터 가공에는 대표적으로 Spark Streaming과 Flink가 있는것으로 알고있지만이번 기회에는 익숙한 Spark를 활용하여 데이터를 가공하고 추후에 Spark Streaming과 Flink를 비교하는 게시물을 작성하는 것을 목표로 한다. Spark 설치파일 다운로드Apache Spark 사이트에서 파일 다운로드$ wget https://dlcdn.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz설치 경로 설정 & 압축해제압축해제 및 환경 변수 설정$ tar -xvf spark-3.5.1-bin-hadoop3.tgz$ v.. 2024. 4. 7.
실시간 데이터 수집-1 (시나리오) 실시간 데이터 수집을 위한 시나리오를 구축한다. 어떤 데이터를 수집할 지, 가공을 어떻게 할 것인지, 어디에 저장할 것인지, 시각화는 어떻게 할 것인지. Architecture 수집대상 실시간 환율 api : 실시간 환율 정보를 가져온다. (링크) 수집기 Filebeat : json log file 형태로 기록되고 있는 실시간 환율 데이터를 수집하여 kafka topic에 저장한다. Kafka : Topic에 실시간 데이터를 queue 방식으로 저장한다. Sink Connector : Topic에 저장된 데이터를 Sink Connector를 활용하여 Target DB(Elasticearch)에 저장한다. Prometheus : node와 Kafka의 Metric 수집에 사용. 가공 Spark Stream.. 2024. 2. 11.