본문 바로가기

카테고리 없음

[DE] 빅데이터 저장소(Data Storage) - ② 데이터 웨어하우스, 데이터 마트

728x90
반응형

2023.08.02 - [분류 전체보기] - [DE] 빅데이터 저장소(Data Storage) - ① 데이터 레이크

 지난 데이터레이크에 대한 포스팅에 이어서 데이터 웨어하우스, 데이터 마트에 관련된 내용을 알아 보고자 한다.

 

2. 데이터 웨어하우스(Data Warehouse)

2-1. Data Warehouse 개념

데이터 웨어하우스(data warehouse)란 사용자의 의사 결정에 도움을 주기 위하여, 기간시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스를 말한다. 줄여서 DW로도 불린다.
  • 데이터를 구조화된 형식으로 저장
  • 분석 및 비즈니스 인텔리전스를 위한 사전 처리된 데이터의 중앙 리포지토리

2-2. Data Warehouse 는 왜 필요할까?

데이터 웨어하우스를 구축하지 않고 직접 데이터베이스에 접근해서 분석을 하면 되지 않을까? 라는 궁금증이 생길 수 있을 것 같다.  예를 들어, 다음과 같은 시스템이 존재한다고 가정해 보자.

  1. 결제 관리 시스템 : 사용자가 쇼핑을 하고 결제를 관리하는 시스템(사용자 결제 목록, 결제 내역)
  2. 재고 관리 시스템 : 상품의 재고를 관리하는 시스템(현재 재고 수량, 부족한 재고 수량)
  3. 주문 관리 시스템 : 상품 주문을 하는 시스템(주문 내역)
  4. 회원 관리 시스템 : 쇼핑몰에 가입하거나 탈퇴를 관리하는 시스템(사용자 나이, 성별, 주소, 유저id)

4개의 시스템은 각자의 목적에 맞게 역할이 있고, 역할에 맞게 데이터베이스에 데이터가 저정된다. 만약 6개월 기간 동안 회원들이 어떤 품목을 얼마나 주문했는지를 알고 싶다면 회원 관리 시스템 + 주문 관리 시스템의 데이터베이스에 쿼리를 작성해서 데이터 분석을 할 수 있을 것이다. 하지만 운영 시스템에 쿼리(SELECT, JOIN)를 기간으로 작성하게 된다면 시스템에 부하가 발생하게 되어서 앱이 동작하지 않게 되거나 데이터베이스를 분석하는 동안 사용하지 못하게 됩니다. 시스템의 데이터베이스는 데이터를 작은 규모의 데이터를 조회, 삽입, 삭제, 수정을 빠르게 하기 위해 만들어진 시스템이라서 큰 규모의 데이터 조회를 했을 때에는 부하가 발생하게 됩니다.

따라서, 이런 부하를 발생시키지 않고 운영DB를 추출하여 큰 규모의 데이터 조회 및 분석을 위해 만들어 진 것이 데이터 웨어하우스이다.

2-3. Data Warehouse 아키텍처

간단한 DW 아키텍처 구조

1. Data Sources

  • 정의 : 데이터 웨어하우스에 데이터를 공급하는 원본 시스템
  • 특징 :
    • ERP, CRM시스템, 트랜잭션 데이터베이스, 외부 데이터, Excel File, Log 파일 등 다양한 형식의 데이터가 포함

2. Stagine Area

  • 정의: 원본 시스템들로부터 추출된 데이터가 임시로 저장되는 공간
  • 특징:
    • 데이터를 일시적으로 저장하고, 필요한 변환 및 정제 작업을 수행하기 전에 보관하는 장소
    • 이 영역은 데이터의 일관성, 통합, 그리고 ETL 프로세스의 성능 최적화에 중요한 역할을 한다.

3. Data Warehouse

  • 정의: 조직 전체의 데이터를 통합, 저장하며, 분석을 위한 기반을 제공하는 중앙 데이터 저장소
  • 특징:
    • 데이터는 정규화되어 있거나, 별도의 주제별 스키마(ex. star schema, snowflake schema)에 따라 구조화된다.
    • 장기적인 역사적 데이터를 저장하여, 시간에 따른 추세 분석 등 다양한 비즈니스 인텔리전스 활동을 지원
Star & Snowflake schema란?
스타 스키마, 눈송이 스키마는 관계형 데이터베이스에서 다차원 데이터 모델링 방법론을 말한다.
자세한 설명은 해당 링크를 통해서 설명을 대체..

4. Data Mart

  • 정의: 데이터 웨어하우스의 부분 집합으로, 특정 비즈니스 영역이나 사용자 그룹의 요구사항에 초점을 맞춘 데이터 저장소
  • 특징:
    • 데이터 웨어하우스보다 규모가 작으며, 특정 부서나 기능(ex. 마케팅, 재무)에 특화된 데이터를 포함
    • 데이터 웨어하우스의 대규모 쿼리 작업으로 인한 성능 저하를 방지하고, 특정 부서의 분석 요구를 빠르게 충족시키기 위해 사용

3. 데이터 마트(Data Mart)

3-1. Data Mart 개념

데이터 마트는 특정 LOB(line of business), 부서, 주제 영역에 중점을 둔 데이터 웨어하우스의 하위 그룹입니다. 데이터 마트는 정의된 사용자 그룹에 특정 데이터를 제공하고, 이러한 사용자는 데이터 마트를 통해 데이터 웨어하우스 전체를 검색하며 시간을 낭비하지 않고 중요한 인사이트를 신속하게 얻을 수 있습니다. 예를 들면, 많은 기업에서 데이터 마트는 재무, 영업 또는 마케팅과 같은 비즈니스 내 특정 부서와 연동되어 있습니다.
  • 데이터 마트는 복잡한 절차를 통해 기존 데이터 웨어하우스(또는 기타 데이터 소스)로부터 구축됨
  • 데이터 웨어하우스 데이터 세트로 작업할 때보다 더 빨리 집중적으로 인사이트를 얻을 수 있음

3-2. Data Mart 유형

데이터 마트에는 종속, 독립, 하이브리드 세 종류가 있다. 이들은 데이터 웨어하우스 및 시스템 생성에 사용되는 데이터 원본과의 관계에 따라 분류된다.

  1. 종속적 데이터 마트
    • 기존 데이터 웨어하우스에서 생성
    • 분석을 위해 필요할 때 데이터의 명확하게 정의된 부분을 추출하는, 하향식 접근방법
  2. 독립적 데이터 마트
    • 데이터 웨어하우스에 의존하지 않는 독립형 시스템 역할을 수행
    • 분석가들은 내부 또는 외부 데이터 소스에서 특정 주제 또는 비즈니스 프로세스에 대한 데이터를 추출하고 처리한 후 팀에서 필요로 할 때까지 데이터 마트 저장소에 저장
  3. 하이브리드 데이터 마트
    • 기존 데이터 웨어하우스와 기타 운영 소스의 데이터를 결합

3-3. 데이터 마트와 데이터 웨어하우스 비교

데이터 웨어하우스 데이터마트
데이터 웨어하우스는 수많은 주제 영역의 데이터를 저장한다. 데이터 마트에는 인사, 재무, 마케팅 등 부서와 관련된 자료가 실려 있다.
기업의 중앙 데이터 저장소 역할을 한다. 그것은 데이터 웨어하우스의 논리적인 하위섹션으로, 데이터는 특정 부서 애플리케이션을 위한 저렴한 서버에 저장된다.
데이터 웨어하우스는 별, 눈송이, 은하 또는 사실 별자리 스키마를 사용하여 설계된다. 그러나 스타 스키마는 가장 널리 사용되는 스키마다. 데이터 마트는 테이블을 디자인하기 위해 스타 스키마를 사용한다.
데이터 웨어하우스는 보통 100GB 이상의 대용량 데이터를 포함하고 있기 때문에 설계와 사용이 까다롭다. 데이터 마트는 크기가 작기 때문에(100GB 미만) 상대적으로 설계와 이용이 쉽다.
데이터 웨어하우스는 기업의 의사결정 과정을 지원하기 위해 설계된다. 그러므로, 중앙집중식 시스템과 그것의 자율성에 대한 전사적인 이해를 제공한다. 데이터 마트는 특정 사용자 그룹 또는 기업 부서를 위해 설계된다. 따라서 부서별 해석과 분산형 데이터 스토리지를 제공한다.
데이터 웨어하우스는 세부 정보를 정규화 또는 정규화 형식으로 저장한다. 한 데이터 마트는 매우 변별력이 높은 데이터를 요약된 형태로 보유하고 있다.
데이터 웨어하우스는 큰 치수를 가지며 고장 위험을 초래할 수 있는 많은 출처의 데이터를 통합한다. 데이터 마트는 크기가 작고 적은 소스에서 데이터를 통합하여 고장 위험이 적다.
데이터 웨어하우스는 데이터가 더 긴 기간 동안 존재하는 주체 지향적이고 시간 변종이다. 데이터 마트는 기업과 관련된 특정 영역을 대상으로 하며, 더 짧은 기간 동안 데이터를 보관한다.

 

참고 사이트

https://bomwo.cc/posts/Datawarehouse/

https://www.sap.com/korea/products/technology-platform/datasphere/what-is-a-data-warehouse.html

https://m.blog.naver.com/kevinjung423/221471678854

https://velog.io/@inhwa1025/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%A7%88%ED%8A%B8%EB%9E%80-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%A0%88%EC%9D%B4%ED%81%AC-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%9B%A8%EC%96%B4%ED%95%98%EC%9A%B0%EC%8A%A4%EC%99%80%EC%9D%98-%EC%B0%A8%EC%9D%B4%EC%A0%90-Data-Mart-Data-Lake-Data-WareHouse

https://datalibrary.tistory.com/100

https://www.snowflake.com/blog/beyond-modern-data-architecture/

https://pearlluck.tistory.com/275

https://aws.amazon.com/ko/what-is/data-mart/

https://majjangjjang.tistory.com/161

 

 

 

 

728x90
반응형