본문 바로가기

분류 전체보기

(63)
데이터 웨어하우스 도입이나 ETL 설계가 필요한 상황 사용자가 증가함에 따라 오류 로그를 확인하는 것이 어려워졌고,해당 부분을 해결하기 위하여 끄적끄적 찾아보았다.결국 인프라 구축이 답이다.   데이터 웨어하우스 도입이나 ETL 설계는 데이터 기반 의사결정이 중요한 환경에서, 데이터의 효율적인 저장, 처리, 분석이 필요할 때 고려합니다. 아래는 이러한 도입과 설계가 필요한 상황, 조건, 그리고 이에 대한 판단 기준입니다.1. 데이터 웨어하우스 도입이 필요한 상황1.1 데이터 통합이 필요한 경우조직 내 데이터가 여러 소스(예: ERP, CRM, 로그 파일 등)에 흩어져 있어 통합이 어려운 경우.다양한 데이터 포맷(JSON, CSV, RDBMS 등)을 표준화된 방식으로 처리해야 할 때.예시:한 회사에서 웹 트래픽 데이터(Google Analytics)와 판매..
데이터 웨어하우스(DW) vs 데이터 레이크(Data Lake) 의 장단점과 차이점 둘다 데이터를 저장하고 관리하는 아키텍쳐인데 어떤걸 어떻게 사용할지 모르겠다.그럼 데이터 웨어하우스(DW) vs 데이터 레이크(Data Lake)장단점과 차이점을 알아보자   *데이터 웨어하우스(Data Warehouse)**와 **데이터 레이크(Data Lake)**는 데이터를 저장하고 관리하는 두 가지 주요 아키텍처입니다. 둘은 데이터 처리 방식, 활용 목적, 데이터 구조에서 차이가 있습니다. 아래에서 정의, 장단점, 차이점을 정리해 드리겠습니다.1. 데이터 웨어하우스(Data Warehouse)정의구조화된 데이터(Structured Data)를 저장하고, 분석과 보고에 최적화된 데이터 저장소.데이터는 ETL(Extract, Transform, Load) 프로세스를 통해 정제되고 변환된 뒤 저장.주로..
데이터 레이크(Data Lake) 데이터 웨어하우스(DW) 검색하다 보니 데이터 레이크(Data Lake)가 나왔고데이터 레이크(Data Lake)에 관한 설명들을 정리해 보았다.    *데이터 레이크(Data Lake)**는 조직이 생성하는 모든 데이터를 원시(raw) 상태로 저장할 수 있는 중앙 집중식 데이터 저장소입니다. 데이터의 형태(구조화, 반정형, 비정형)에 상관없이 그대로 저장하고, 이후 필요할 때 데이터를 처리, 변환, 분석하는 방식으로 활용합니다. 데이터 레이크는 대규모 데이터를 경제적으로 저장하고 다양한 분석 작업을 지원하는 데 초점을 맞춥니다.데이터 레이크의 주요 특징모든 데이터 저장구조화 데이터(예: 관계형 데이터베이스), 반정형 데이터(예: JSON, XML), 비정형 데이터(예: 이미지, 동영상, 로그 파일) 모..
데이터 웨어하우스(DW) 현재 우리 회사의 매출 및 정산을 위해서는 여러가지의 변형된 데이터의 쿼리가 필요하다.다양한 쿼리문을 이것 저것 변형하여 매출 담당자 및 총판 담당자에게 데이터를 전달하고 있다. 그로인한 문제점을 해결하기 위해서 검색하다 보니 데이터 웨어하우스(DW)가 나왔고데이터 웨어하우스(DW)에 관한 설명들을 정리해 보았다,    데이터 웨어하우스(Data Warehouse, DW)는 조직 내 다양한 소스에서 데이터를 통합, 저장, 관리하여 비즈니스 인텔리전스(BI)와 데이터 분석을 용이하게 하는 중앙 저장소입니다. 주로 의사결정을 지원하기 위해 설계된 시스템으로, 대규모 데이터를 효율적으로 저장하고 처리할 수 있도록 최적화되어 있습니다.데이터 웨어하우스의 주요 특징주제 지향성(Subject-Oriented)특정 ..
ETL 파이프라인? 사용자가 증가함에 따라 서버가 불안정 하여 로그를 일일히 찾는것이 어려워 졌다.그래서 SSAS(SQL Server Analysis Services) 를 도입하기 위해서 이것 저것 알아보다가 ETL 파이프라인으로 데이터 추출 / 변환 / 적재 에 관해 알아 보게 되었다.    ETL 파이프라인 설계는 데이터를 추출(Extract), 변환(Transform), **적재(Load)**하는 일련의 프로세스를 설계하고 구현하는 것을 의미합니다. ETL 파이프라인은 데이터를 다양한 소스에서 가져와 변환한 뒤, 분석 또는 저장에 적합한 형식으로 데이터 웨어하우스나 데이터베이스에 적재하는 과정을 자동화합니다.ETL 파이프라인 설계의 핵심 요소데이터 소스 정의 (Extract)데이터를 어디에서 가져올지 정의합니다.일반적..
Github + Jenkins 연동 회사에서 Github를 사용하고 있어서 Github과 Jenkins를 연동하여 ec에 배포하는 방법을 찾아 보았다.Github + Jenkins 연동과 Jenkins로 Build 후 ssh로 배포하기    다음 그림과 같은 형식 CI/CD를 구현  1. Jenkins 설치OS가 ubuntu인 ec2에 jenkins를 설치.jenkins는 java가 설치되어 있어야 하기 때문에 java를 설치하겠습니다. 다음과 같이 openjdk-8-jdk를 설치합니다.123sudo add-apt-repository ppa:webupd8team/javasudo apt updatesudo apt-get install openjdk-8-jdk java -version을 통해 java가 잘 설치되었는지 확인합니다.  maven..
데브옵스(DevOps) 설정방법 데브옵스에 대해 알아 보았으니 이제 설정 방법을 알아보자.현재 회사에서는 gitlab을 활용하고 있어서 gitlab CI 또는 jenkins로 설정해야한다.github을 사용하고 있다면 jenkins와 github Actions를 사용해도된다.  데브옵스(DevOps) 설정 방법은 조직의 요구 사항, 팀 규모, 사용하는 기술 스택 등에 따라 달라질 수 있지만, 기본적인 데브옵스 파이프라인 설정에는 다음과 같은 단계가 포함됩니다:1. 데브옵스 도구 선정데브옵스는 여러 도구를 통해 자동화, 모니터링, 배포 등을 구현합니다. 각 단계에 맞는 도구를 선정하는 것이 중요합니다. 기본적인 데브옵스 도구는 다음과 같습니다:소스 코드 관리: Git, GitHub, GitLab, Bitbucket지속적 통합/배포(CI/..
데브옵스(DevOps)란? 친구랑 일에 대해서 이것저것 말하다가 내 업무를 이야기 하다보니'거의 데브옵스네?' 라고 하였다.근데 데브옵스가 뭐냐...?이렇게 물어보는게 너무 부끄러워 집가서 찾아 보고 열심히 정리해 보았다.   데브옵스(DevOps)란?*데브옵스(DevOps)**는 소프트웨어 개발(Development)과 IT 운영(Operation)을 통합한 방식이나 문화, 방법론을 의미합니다. 데브옵스는 조직이 소프트웨어를 빠르고 신뢰성 있게 개발, 배포, 운영할 수 있도록 돕는 데 초점을 맞춥니다.데브옵스의 주요 개념협업과 통합개발팀(Dev)과 운영팀(Ops)이 긴밀히 협력하여 소프트웨어 개발부터 운영까지의 프로세스를 통합.부서 간의 경계를 허물어 커뮤니케이션과 생산성을 강화.자동화코드 작성, 테스트, 빌드, 배포, 모니터링..