본문 바로가기

개발공부/Database

데이터 웨어하우스(DW)

현재 우리 회사의 매출 및 정산을 위해서는 여러가지의 변형된 데이터의 쿼리가 필요하다.

다양한 쿼리문을 이것 저것 변형하여 매출 담당자 및 총판 담당자에게 데이터를 전달하고 있다.

 그로인한 문제점을 해결하기 위해서 검색하다 보니 데이터 웨어하우스(DW)가 나왔고

데이터 웨어하우스(DW)에 관한 설명들을 정리해 보았다, 

 

 

 

데이터 웨어하우스(Data Warehouse, DW)는 조직 내 다양한 소스에서 데이터를 통합, 저장, 관리하여 비즈니스 인텔리전스(BI)와 데이터 분석을 용이하게 하는 중앙 저장소입니다. 주로 의사결정을 지원하기 위해 설계된 시스템으로, 대규모 데이터를 효율적으로 저장하고 처리할 수 있도록 최적화되어 있습니다.


데이터 웨어하우스의 주요 특징

  1. 주제 지향성(Subject-Oriented)
    • 특정 비즈니스 주제(예: 고객, 판매, 제품 등)를 중심으로 데이터를 구성합니다.
    • 운영 시스템의 기능 중심 데이터와 달리, 분석과 의사결정에 초점이 맞춰져 있습니다.
  2. 통합성(Integrated)
    • 다양한 소스(데이터베이스, 파일, API 등)에서 데이터를 통합하여 일관성 있는 형식으로 변환합니다.
    • 데이터 형식, 단위, 명명 규칙 등이 통합되어 사용자가 쉽게 이해할 수 있습니다.
  3. 시간 변동성(Time-Variant)
    • 데이터는 특정 시점 또는 기간에 대한 기록을 포함하여 시간 축을 기반으로 저장됩니다.
    • 과거 데이터와 현재 데이터를 모두 제공해 트렌드 분석이 가능합니다.
  4. 비휘발성(Non-Volatile)
    • 데이터는 읽기 전용으로 저장되며, 원칙적으로 수정되지 않습니다.
    • 운영 시스템처럼 빈번한 업데이트보다는 안정적인 데이터 보존이 중요합니다.

데이터 웨어하우스와 운영 데이터베이스의 차이

특징 데이터 웨어하우스 운영 데이터베이스 (OLTP)

목적 분석 및 의사결정 지원 실시간 트랜잭션 처리
데이터 구조 다차원 모델 (스타 스키마, 스노우플레이크 스키마) 관계형 데이터 모델
데이터 성격 과거 및 현재 데이터 (시간 변동성 있음) 최신 상태 데이터 (실시간)
데이터 갱신 빈도 정기적 (ETL 과정으로 갱신) 자주 변경 (삽입, 업데이트, 삭제)
사용자 분석가, 관리자 일반 사용자, 운영 직원
쿼리 성격 복잡한 쿼리 및 집계 단순 쿼리 및 트랜잭션
성능 최적화 읽기 작업에 최적화 (OLAP) 쓰기 작업에 최적화 (OLTP)

데이터 웨어하우스의 구성 요소

  1. 데이터 소스
    • ERP, CRM, 운영 데이터베이스, IoT 센서, API 등 다양한 소스에서 데이터를 가져옵니다.
  2. ETL 프로세스
    • 데이터를 추출(Extract), 변환(Transform), 적재(Load)하는 과정입니다.
    • 데이터를 클렌징, 정규화, 집계하여 데이터 웨어하우스에 적합하게 변환.
  3. 데이터 스토리지
    • 데이터를 저장하는 핵심 공간입니다.
    • 스키마 설계 방식:
      • 스타 스키마(Star Schema): 간단한 구조로 빠른 조회 가능.
      • 스노우플레이크 스키마(Snowflake Schema): 정규화를 통해 데이터 중복을 줄임.
  4. OLAP 엔진
    • 다차원 데이터 분석을 가능하게 하는 도구.
    • 예: SSAS, Apache Druid, Google BigQuery.
  5. 프론트엔드 툴
    • BI 도구(Power BI, Tableau, Looker 등)를 통해 데이터를 시각화하고 분석.

데이터 웨어하우스의 장점

  1. 데이터 통합
    • 다양한 소스에서 데이터를 수집하여 중앙에서 관리.
  2. 효율적 분석
    • 데이터가 읽기 전용으로 설계되어 고속 쿼리 가능.
  3. 시간 기반 데이터 분석
    • 과거 데이터를 보존하여 트렌드와 패턴 분석 지원.
  4. 확장성
    • 대용량 데이터를 처리할 수 있도록 설계.
  5. 비즈니스 인텔리전스(BI) 지원
    • 전략적 의사결정과 예측 분석에 활용.

데이터 웨어하우스 도구 및 플랫폼

  • 클라우드 기반:
    • Google BigQuery
    • Amazon Redshift
    • Microsoft Azure Synapse Analytics
    • Snowflake
  • 온프레미스:
    • Oracle Exadata
    • Teradata
    • SAP BW/4HANA

데이터 웨어하우스의 실제 사례

  1. 소매업체의 판매 데이터 분석
    • 목표: 지역별, 제품별 매출 추이를 분석하여 재고 관리 최적화.
    • 방법:
      • 판매 데이터를 ETL 프로세스를 통해 데이터 웨어하우스로 전송.
      • OLAP 큐브를 사용해 지역별, 시간별 매출 데이터를 분석.
  2. 은행의 고객 행동 분석
    • 목표: 고객 이탈 방지 및 개인화된 금융 상품 추천.
    • 방법:
      • 거래 데이터와 고객 피드백 데이터를 웨어하우스에 통합.
      • BI 도구를 통해 고객 세그먼트를 분석.