본문 바로가기

728x90
반응형

Study

(79)
Databricks | 복잡한 데이터 변환 (Complex Transformations) Spark SQL을 활용한 데이터 분석 실무에서는 단순한 테이블 조회를 넘어서 복잡한 구조의 데이터를 다루는 일이 자주 발생합니다. 이번 글에서는 Databricks 강의 중 5 - Complex Transformations 섹션을 바탕으로 JSON 파싱, 배열 처리, 구조체 해제, 조인, 피벗 테이블 등 Spark SQL에서 자주 활용되는 고급 기능들을 체계적으로 정리합니다.🧷 0. Nested JSON 이란?Nested JSON은 JSON 데이터 내부에 또 다른 JSON 객체(혹은 배열)가 중첩된 구조를 말합니다.예를 들어, 다음은 Nested JSON의 전형적인 예입니다:{ "user_id": "123", "device": "Linux", "ecommerce": { "purchase_revenue..
Databricks로 배우는 데이터 정제 (Cleaning Data) 실습 정리 Databricks의 Basic Transformations 시리즈 중 4. Cleaning Data 파트는 Spark SQL을 활용하여 데이터셋을 정제(clean)하고, 분석 가능한 형태로 가공하는 일련의 과정을 다룹니다.정제는 단순한 작업 같지만, 실무에서는 데이터 분석의 절반 이상을 차지할 만큼 중요한 단계이기도 하다. 이번 실습은 users_bronze라는 원시 테이블에서 시작해 users_silver라는 클린 테이블로 가공하는 흐름으로 구성된다.1️⃣ Cleaning Data 소개이 강의에서는 다양한 컬럼 표현식과 SQL 쿼리를 사용하여 데이터를 정제하는 방법을 배운다.Spark SQL에서는 일반적인 SQL 문법들(DISTINCT, WHERE, GROUP BY 등)을 사용할 수 있으며, 내장 함..
Databricks Basic Transformations 강의 정리 이 글은 Databricks에서 제공하는 "Basic Transformations" 강의 내용을 정리한 포스팅입니다. Spark SQL과 Delta Lake를 활용한 기초적인 데이터 변환 작업을 중심으로 학습한 내용을 단계별로 소개합니다. 실습 기반으로 진행되며, 실무에 바로 활용 가능한 팁들이 많이 포함되어 있습니다.1. 가이드 목표 (Learning Objectives)Spark SQL 을 이용해 외부 데이터의 처리와 계산을 구성DDL (Data Definition Language) 문자를 통해 테이블 생성Managed Table vs External Table 차이 이해저장 위치 관리 방식 환경 이해2. MERGE INTO 메서드 (최가하기)MERGE INTO 문는 "UPSERT"와 유의하며, 데이..
Databricks에서 말하는 Catalog란? — 전통 DBMS와의 차이까지 정리 📚 Databricks에서 말하는 Catalog란 무엇인가?Databricks를 공부하다 보면 Catalog라는 단어가 자주 등장한다.처음엔 익숙하지 않았지만, 정리해보니 기존 데이터베이스의 개념을 확장한 매우 중요한 단위라는 걸 알 수 있었다. 이 글에서는 Databricks의 Catalog가 무엇이고, 기존 DBMS와 어떤 차이가 있는지 정리해본다.✅ 1. Catalog란?Catalog는 Databricks에서 데이터 자산을 논리적으로 구분하고 관리하는 최상위 단위다.Databricks의 구조는 다음과 같다:Catalog > Schema > Table(View)예를 들어 main.sales.customers라는 테이블이 있다면,main → Catalogsales → Schema (기존 DBMS의 D..
Databricks 데이터 엔지니어링 실습 정리: Delta Lake와 워크플로우 중심으로 요즘 데이터 관련 플랫폼 공부를 하다 보니 Databricks가 자주 언급되길래직접 자료도 찾아보고 공식 영상도 보면서 내용을 정리해봤다.특히 나는 데이터 엔지니어링 쪽이 관심이 많아서, 관련 내용을 위주로 메모한 내용이다.📌 데이터브릭스란?"데이터브릭스는 빅데이터, 데이터 엔지니어링, 데이터 사이언스, 인공지능(AI) 업무를 하나의 플랫폼에서 수행할 수 있는 통합 데이터 분석 플랫폼이다."즉, 분석이든 머신러닝이든 하나의 환경에서 처리 가능하다는 것이 핵심이고 그 배경에는 Databricks가 제안하는 Lakehouse Architecture가 있다. 정리하자면,구성 요소설명Lake비정형/원시 데이터를 빠르게 쌓아둘 수 있는 공간 (ex. Data Lake)Warehouse정형화된 쿼리 성능 중심의 ..
AI페어 프로그래밍 * AI페어 프로그래밍 책을 읽고 정리한 내용 입니다. 프롬프트 엔지니어링 4S 원칙Single : 하나의 질문 혹은 작업에 집중Specific : 명확하고 상세하게 지시Short : 간결하게 핵심을 전달Surround : 주변 컨텍스트를 제공해서 질문의 상황을 잘 전달답변 방식을 확실하게 정해주기Json 생성작업 하나(single), json 형식을 명확하게(Specific)하게 알려주고, 불필요한 말 없이 짧게(Short),json이라는 표현으로 프로그래밍 관련 답변을 원한다는 컨텍스트(Surround)를 추가한 질문 구역을 확실히 잡아주기 다시 다시 그리고 다시 해보기AI모델과 티키타카하며 결과물을 세심하게 잡아나가는 것, 그것이 프롬프트 엔지니어링이다.  반드시 알아둬야 할 프롬프팅 테크닉zero..
[PostgreSQL] Permission denied Error postgreSQL에서 csv 파일 엑세스할때 발생한 오류이다. copy retail_sales FROM 'C:\Users\YH\Desktop\us_retail_sales.csv' DELIMITER ',' CSV HEADER; ERROR: "C:\Users\YH\Desktop\us_retail_sales.csv" 파일 일기 모드로 열기 실패: Permission denied HINT: COPY FROM 명령 은 PostgreSQL 서버 프로세스가 한 파일을 읽어 처리합니다. 클라이언트 쪽에 있는 파일을 읽어 처리 하려면, psql의 \copy 내장 명령어를 사용하세요. 해당 오류는 postgreSQL 서버가 파일을 엑세스할 수 있는 권한이 없어서 발생한 문제로, postgreSQL 서버가 엑세스 할 수 ..
[MySQL] JOIN조건과 WHERE조건의 차이 /* 쿼리 1번 */ SELECT A.ORD_NO,A.ORD_DT,A.ORD_HMS,A.SHOP_NO,B.SHOP_NO,B.SHOP_NM FROM ORD A LEFT JOIN ( SELECT SHOP_NO,SHOP_NM FROM SHOP B WHERE B.SHOP_NO NOT LIKE 'SH019%' /* SH019로 시작하는 SHOP_NO 제외 */ ) B ON A.SHOP_NO = B.SHOP_NO WHERE B.SHOP_NO IN ('SH0009','SH0191','SH0158','SH0192','SH0193','SH0194') AND A.ORD_DT = '20120101' AND A.ORD_HMS = '090028' /* 쿼리 2번 */ SELECT A.ORD_NO,A.ORD_DT,A.ORD_HM..

728x90
반응형