본문 바로가기

728x90
반응형

전체 글

(97)
[DE] Yarn - Yet Another Resource Negotiator 1. Yarn 이란? Yarn(Yet Another Resource Negotiator)은 Hadoop 클러스터의 자원 관리와 잡 스케줄링을 담당하는 시스템 하둡분산자원관리 2. 등장배경 Hadoop 1.0의 MRV1(MapReduce Version1)는 작업의 처리와 자원의 관리를 한번에 관리하였다. 즉, Single-Master 노드에 해당하는 job Tracker는 자원을 할당하고, 스케줄링 작업도 수행하며 처리중인 작업까지 모니터링을 하였다. 그리고 하위 노드에 해당하는 Task Tracker에 Map and Reduce 작업을 부여하였고, 하위 노드들은 주기적으로 그들의 진행상황을 Job Tracker에 보고하였다. 이러한 MRV1구조는 Task의 규모가 커짐에 따라, 하나 뿐인 Job Trac..
[DE] 맵리듀스(MapReduce) 하둡은 기본적으로 HDFS, MapReduce로 구성되어 있다. 맵릳듀스는 HDFS에 저장된 파일을 분산 배치 분석을 할 수 있게 도와주는 프레임워크 이다. 따라서, 개발자는 맵리듀스 프로그래밍 모델에 맞게 Map, Reduce를 구현해야 한다. 개발자는 key / value 쌍을 처리하는 Map 함수를 설정하여 중간 결과물 형태의 Key / value 쌍 데이터를 만들고, Reduce 함수를 설정하여 Map 함수의 중간 결과물의 Key를 가진 값들을 합쳐서 최종 결과물을 만든다. 1. MapReduce의 구성 하둡에서 수행하는 역할은 크게 HDFS에서 파일을 저장과 데이터를 처리하는 맵리듀스로 역할로 나누어 진다. 기본적으로 Master-Slave 구조를 가지고 있다. 그리고 아래의 그림과 같이 Lay..
[DE] HDFS - The Hadoop Distributed File System 디지털 기술의 발전, 사물인터넷(IoT) 기술, 개인 디지털 기기의 확산 등 다양한 요인으로 데이터는 급격하게 증가하고 있다. 유튜브, 페이스북과 같은 플랫폼에서는 개인이 콘텐츠를 폭발적으로 생성하고, 스마트기기와 신용카드 거래, CCTV 등을 통해서도 매일 같이 엄청난 양의 데이터가 쌓여가고 있다. KT 경제경영연구소의 통계에 따르면, 인류가 종이에 기록을 남기기 시작한 이후 2000년대 초까지 생성된 데이터는 약 20 엑사바이트(exa byte)로 추정된다. 그러나 2000년대 초부터 2021년까지 생성된 데이터의 양은 약 50 제타바이트(zetta byte), 즉 5만 엑사바이트에 해당한다. 이는 지난 5,000년 동안 생성된 데이터의 양을 약 2,500배 넘어서는 것이다. 가장 놀라운 사실은 현재..
[DE] 빅데이터 저장소(Data Storage) - ② 데이터 웨어하우스, 데이터 마트 2023.08.02 - [분류 전체보기] - [DE] 빅데이터 저장소(Data Storage) - ① 데이터 레이크 지난 데이터레이크에 대한 포스팅에 이어서 데이터 웨어하우스, 데이터 마트에 관련된 내용을 알아 보고자 한다. 2. 데이터 웨어하우스(Data Warehouse) 2-1. Data Warehouse 개념 데이터 웨어하우스(data warehouse)란 사용자의 의사 결정에 도움을 주기 위하여, 기간시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스를 말한다. 줄여서 DW로도 불린다. 데이터를 구조화된 형식으로 저장 분석 및 비즈니스 인텔리전스를 위한 사전 처리된 데이터의 중앙 리포지토리 2-2. Data Warehouse 는 왜 필요할까? 데이터 웨어하우스를..
[DE] 빅데이터 저장소(Data Storage) - ① 데이터 레이크 빅데이터, 데이터 엔지니어에 대해 검색하다보면 Date Mart(데이터 마트, DM), Data Warehouse(데이터 웨어하우스, DW), Data Lake(데이터 레이크, DL) 등의 단어를 쉽지 않게 볼 수 있다. 데이터 레이크 -. 원시 데이터 및 비정형 데이터의 중앙 리포지토리 -. 먼저 데이터를 저장하고 나중에 처리할 수 있음 데이터 웨어하우스 -. 데이터를 구조화된 형식으로 저장 -. 분석 및 비즈니스 인텔리전스를 위한 사전 처리된 데이터의 중앙 리포지토리 데이터 마트 -. 회사의 금융, 마케팅 또는 영업 부서와 같은 특정 사업부의 요구 사항을 지원하는 데이터 웨어하우스 1. 데이터 레이크(Data Lake) 1-1. Data Lake의 개념 "If you think of a datamar..
[PostgreSQL] Permission denied Error postgreSQL에서 csv 파일 엑세스할때 발생한 오류이다. copy retail_sales FROM 'C:\Users\YH\Desktop\us_retail_sales.csv' DELIMITER ',' CSV HEADER; ERROR: "C:\Users\YH\Desktop\us_retail_sales.csv" 파일 일기 모드로 열기 실패: Permission denied HINT: COPY FROM 명령 은 PostgreSQL 서버 프로세스가 한 파일을 읽어 처리합니다. 클라이언트 쪽에 있는 파일을 읽어 처리 하려면, psql의 \copy 내장 명령어를 사용하세요. 해당 오류는 postgreSQL 서버가 파일을 엑세스할 수 있는 권한이 없어서 발생한 문제로, postgreSQL 서버가 엑세스 할 수 ..
[MySQL] JOIN조건과 WHERE조건의 차이 /* 쿼리 1번 */ SELECT A.ORD_NO,A.ORD_DT,A.ORD_HMS,A.SHOP_NO,B.SHOP_NO,B.SHOP_NM FROM ORD A LEFT JOIN ( SELECT SHOP_NO,SHOP_NM FROM SHOP B WHERE B.SHOP_NO NOT LIKE 'SH019%' /* SH019로 시작하는 SHOP_NO 제외 */ ) B ON A.SHOP_NO = B.SHOP_NO WHERE B.SHOP_NO IN ('SH0009','SH0191','SH0158','SH0192','SH0193','SH0194') AND A.ORD_DT = '20120101' AND A.ORD_HMS = '090028' /* 쿼리 2번 */ SELECT A.ORD_NO,A.ORD_DT,A.ORD_HM..
[MySQL] COUNT(1), COUNT(*), COUNT(col)의 차이 SELECT COUNT(1) AS CNT_1 , COUNT(*) AS CNT_ASTERISK , COUNT(SEQ) AS CNT_NULL , COUNT(CL_UNI_CD) AS CNT_DATA , COUNT(DISTINCT CL_UNI_CD) AS CNT_DISTINCT FROM COM_CD; [출력 결과] 1. COUNT(1), COUNT(*)의 차이 count(1)과 count(*)은 테이블 전체의 행의 개수를 확인하기 위해서 사용 결론적으로는 큰 차이는 없다. 아래 데이터 검증 결과에서 알 수 있듯이, count(*)은 테이블의 모든 행을 세고, count(1)은 결과 행을 세는데 사용되는 상수 1을 count한다. COUNT(*), COUNT(1) 둘 다 행의 NULL 값이 있더라도 행의 전체 개..

728x90
반응형