데이터 웨어하우스(DW) 검색하다 보니 데이터 레이크(Data Lake)가 나왔고
데이터 레이크(Data Lake)에 관한 설명들을 정리해 보았다.
*데이터 레이크(Data Lake)**는 조직이 생성하는 모든 데이터를 원시(raw) 상태로 저장할 수 있는 중앙 집중식 데이터 저장소입니다. 데이터의 형태(구조화, 반정형, 비정형)에 상관없이 그대로 저장하고, 이후 필요할 때 데이터를 처리, 변환, 분석하는 방식으로 활용합니다. 데이터 레이크는 대규모 데이터를 경제적으로 저장하고 다양한 분석 작업을 지원하는 데 초점을 맞춥니다.
데이터 레이크의 주요 특징
- 모든 데이터 저장
- 구조화 데이터(예: 관계형 데이터베이스), 반정형 데이터(예: JSON, XML), 비정형 데이터(예: 이미지, 동영상, 로그 파일) 모두 저장 가능.
- 데이터를 변환하지 않고 원시 상태로 저장하므로 손실 없이 데이터를 보존.
- 유연한 스키마(Schema-on-Read)
- 데이터를 저장할 때 스키마를 정의하지 않고, 데이터를 읽거나 사용할 때 스키마를 적용.
- 다양한 형태의 데이터를 유연하게 다룰 수 있음.
- 저비용 스토리지
- 데이터를 저렴한 객체 스토리지(예: AWS S3, GCP Cloud Storage, Azure Data Lake Storage)에 저장.
- 대규모 데이터를 비용 효율적으로 관리 가능.
- 확장성
- 데이터의 양이 증가하더라도 쉽게 확장 가능.
- 기존 데이터베이스나 데이터 웨어하우스의 저장 용량 한계를 극복.
- 분석과 머신러닝 지원
- 데이터 레이크는 데이터 과학자와 분석가가 머신러닝, 고급 분석, 실시간 데이터 처리 등 다양한 작업을 수행할 수 있도록 설계.
데이터 레이크의 구성 요소
- 데이터 소스
- 데이터를 가져오는 출발점. 예: IoT 장치, 애플리케이션 로그, 소셜 미디어 데이터, 데이터베이스 등.
- 데이터 스토리지
- 데이터가 저장되는 실제 공간.
- 일반적으로 저비용 객체 스토리지 사용(예: AWS S3, Azure Blob Storage, HDFS).
- 데이터 처리
- 데이터를 변환하거나 준비하는 작업(예: ETL 또는 ELT).
- Spark, Hive, Presto와 같은 분산 데이터 처리 기술 활용.
- 데이터 관리
- 메타데이터를 활용한 데이터 카탈로그 생성으로 데이터 검색 및 관리.
- AWS Glue, Apache Atlas 같은 도구를 사용.
- 분석 도구
- 데이터를 분석하거나 시각화하는 데 사용.
- BI 도구(예: Tableau, Power BI)나 데이터 과학 도구(예: Jupyter Notebook, Databricks)와 연결 가능.
데이터 레이크의 장점
- 다양한 데이터 저장
- 비정형 데이터(이미지, 동영상, 로그)부터 정형 데이터까지 모두 저장 가능.
- 데이터의 손실 없이 저장하므로 유연성 증가.
- 경제성
- 객체 스토리지와 같은 저비용 저장소를 사용하여 대규모 데이터를 저렴하게 관리 가능.
- 분석 및 머신러닝 최적화
- 데이터 과학자들이 원시 데이터를 자유롭게 활용할 수 있어 머신러닝, 고급 분석에 적합.
- 확장 가능성
- 데이터의 양이 늘어나도 유연하게 확장 가능.
- 빠른 데이터 적재
- 데이터를 원시 상태로 바로 적재 가능하므로, 데이터 웨어하우스보다 초기 작업이 간단.
데이터 레이크의 단점
- 데이터 관리 문제
- 구조화되지 않은 데이터로 인해 품질 관리가 어렵고 데이터 혼란이 발생할 수 있음(“데이터 늪” 문제).
- 느린 쿼리 성능
- 데이터가 정제되지 않은 상태에서 분석을 수행하면 성능 저하 가능.
- 추가적인 데이터 관리 도구 필요
- 메타데이터 관리, 데이터 검색 및 데이터 거버넌스를 위한 추가 도구가 필요.
- 학습 곡선
- 데이터 레이크를 활용하기 위해서는 기술 스택(Apache Hadoop, Spark, Presto 등)에 대한 숙련도가 필요할 수 있음.
데이터 레이크의 활용 사례
- IoT 데이터 분석
- 센서 데이터, 실시간 스트리밍 데이터를 원시 상태로 저장하고 분석.
- 예: 제조업의 센서 데이터를 활용한 예지 정비.
- 로그 데이터 분석
- 서버 로그, 애플리케이션 로그 데이터를 활용해 문제 해결 및 최적화.
- 소셜 미디어 분석
- 트위터, 페이스북 등 소셜 미디어 데이터에서 감성 분석, 트렌드 분석 수행.
- 머신러닝과 AI
- 원시 데이터를 활용하여 머신러닝 모델 학습 및 배포.
- 멀티미디어 데이터 저장
- 비정형 데이터를 저장하고 AI 기반 이미지, 음성 분석 수행.
데이터 레이크와 데이터 웨어하우스 비교
특징 데이터 레이크 데이터 웨어하우스
데이터 유형 | 정형, 반정형, 비정형 데이터를 모두 저장 | 정형 데이터 중심 |
데이터 처리 | 원시 데이터 저장 후 필요 시 변환(ELT) | 데이터 변환 후 저장(ETL) |
비용 | 저비용 객체 스토리지 기반 | 상대적으로 높은 비용 |
사용 사례 | 머신러닝, 데이터 과학, 실시간 처리 | 비즈니스 인텔리전스, 보고서 작성 |
스키마 | 읽을 때 스키마 적용(Schema-on-Read) | 저장할 때 스키마 적용(Schema-on-Write) |
결론
데이터 레이크는 비정형 데이터를 포함한 대규모 데이터를 유연하게 저장하고, 머신러닝이나 데이터 과학 작업에 적합한 환경을 제공합니다. 하지만 데이터 관리를 위한 체계적인 전략이 없다면 "데이터 늪(Data Swamp)"으로 전락할 위험이 있습니다. 따라서 데이터 레이크를 도입할 때는 메타데이터 관리, 데이터 카탈로그, 데이터 거버넌스 같은 체계를 반드시 고려해야 합니다.