전체 글 (113) 썸네일형 리스트형 Databricks | 복잡한 데이터 변환 (Complex Transformations) Spark SQL을 활용한 데이터 분석 실무에서는 단순한 테이블 조회를 넘어서 복잡한 구조의 데이터를 다루는 일이 자주 발생합니다. 이번 글에서는 Databricks 강의 중 5 - Complex Transformations 섹션을 바탕으로 JSON 파싱, 배열 처리, 구조체 해제, 조인, 피벗 테이블 등 Spark SQL에서 자주 활용되는 고급 기능들을 체계적으로 정리합니다.🧷 0. Nested JSON 이란?Nested JSON은 JSON 데이터 내부에 또 다른 JSON 객체(혹은 배열)가 중첩된 구조를 말합니다.예를 들어, 다음은 Nested JSON의 전형적인 예입니다:{ "user_id": "123", "device": "Linux", "ecommerce": { "purchase_revenue.. Databricks로 배우는 데이터 정제 (Cleaning Data) 실습 정리 Databricks의 Basic Transformations 시리즈 중 4. Cleaning Data 파트는 Spark SQL을 활용하여 데이터셋을 정제(clean)하고, 분석 가능한 형태로 가공하는 일련의 과정을 다룹니다.정제는 단순한 작업 같지만, 실무에서는 데이터 분석의 절반 이상을 차지할 만큼 중요한 단계이기도 하다. 이번 실습은 users_bronze라는 원시 테이블에서 시작해 users_silver라는 클린 테이블로 가공하는 흐름으로 구성된다.1️⃣ Cleaning Data 소개이 강의에서는 다양한 컬럼 표현식과 SQL 쿼리를 사용하여 데이터를 정제하는 방법을 배운다.Spark SQL에서는 일반적인 SQL 문법들(DISTINCT, WHERE, GROUP BY 등)을 사용할 수 있으며, 내장 함.. Databricks Basic Transformations 강의 정리 이 글은 Databricks에서 제공하는 "Basic Transformations" 강의 내용을 정리한 포스팅입니다. Spark SQL과 Delta Lake를 활용한 기초적인 데이터 변환 작업을 중심으로 학습한 내용을 단계별로 소개합니다. 실습 기반으로 진행되며, 실무에 바로 활용 가능한 팁들이 많이 포함되어 있습니다.1. 가이드 목표 (Learning Objectives)Spark SQL 을 이용해 외부 데이터의 처리와 계산을 구성DDL (Data Definition Language) 문자를 통해 테이블 생성Managed Table vs External Table 차이 이해저장 위치 관리 방식 환경 이해2. MERGE INTO 메서드 (최가하기)MERGE INTO 문는 "UPSERT"와 유의하며, 데이.. Databricks에서 말하는 Catalog란? — 전통 DBMS와의 차이까지 정리 📚 Databricks에서 말하는 Catalog란 무엇인가?Databricks를 공부하다 보면 Catalog라는 단어가 자주 등장한다.처음엔 익숙하지 않았지만, 정리해보니 기존 데이터베이스의 개념을 확장한 매우 중요한 단위라는 걸 알 수 있었다. 이 글에서는 Databricks의 Catalog가 무엇이고, 기존 DBMS와 어떤 차이가 있는지 정리해본다.✅ 1. Catalog란?Catalog는 Databricks에서 데이터 자산을 논리적으로 구분하고 관리하는 최상위 단위다.Databricks의 구조는 다음과 같다:Catalog > Schema > Table(View)예를 들어 main.sales.customers라는 테이블이 있다면,main → Catalogsales → Schema (기존 DBMS의 D.. Databricks 데이터 엔지니어링 실습 정리: Delta Lake와 워크플로우 중심으로 요즘 데이터 관련 플랫폼 공부를 하다 보니 Databricks가 자주 언급되길래직접 자료도 찾아보고 공식 영상도 보면서 내용을 정리해봤다.특히 나는 데이터 엔지니어링 쪽이 관심이 많아서, 관련 내용을 위주로 메모한 내용이다.📌 데이터브릭스란?"데이터브릭스는 빅데이터, 데이터 엔지니어링, 데이터 사이언스, 인공지능(AI) 업무를 하나의 플랫폼에서 수행할 수 있는 통합 데이터 분석 플랫폼이다."즉, 분석이든 머신러닝이든 하나의 환경에서 처리 가능하다는 것이 핵심이고 그 배경에는 Databricks가 제안하는 Lakehouse Architecture가 있다. 정리하자면,구성 요소설명Lake비정형/원시 데이터를 빠르게 쌓아둘 수 있는 공간 (ex. Data Lake)Warehouse정형화된 쿼리 성능 중심의 .. Redroid, ADB, SCRCPY가 무엇인지? IrisPy2 라이브러리에 대한 설명 1. Redroid: 루팅된 Android 환경을 위한 가상화 솔루션Redroid는 Docker 기반의 Android 가상화 솔루션으로, 루팅된 Android 환경을 손쉽게 구축할 수 있습니다. 이를 통해 실제 디바이스 없이도 Android 애플리케이션을 테스트하거나 자동화 작업을 수행할 수 있습니다.주요 특징:컨테이너 기반 실행: Docker를 활용하여 Android 환경을 컨테이너로 실행합니다.멀티 아키텍처 지원: arm64 및 amd64 아키텍처를 모두 지원합니다.GPU 가속: 그래픽 성능 향상을 위해 GPU 가속을 지원합니다.다중 인스턴스 실행: 하나의 호스트에서 여러 Android 인스턴스를 동시에 실행할 수 있습니다.이러한 기능을 통해 Redroid는 테스트 자동화, 클라우드 게임, 앱 개발 .. 카카오톡 챗봇 만들기 (Iris + IrisPy2 활용) 2025.04.01 - [project] - Kakao Chat-bot 만들기 - 오픈빌더와 Flask를 이용한 MVP 제작 Kakao Chat-bot 만들기 - 오픈빌더와 Flask를 이용한 MVP 제작1. 프로젝트 개요나는 매일 오딘 길드의 보스 스케줄을 공지하는 역할을 맡고 있었다. 하지만 이 작업은 생각보다 꽤 번거롭고, 매일 밤마다 수동으로 시간을 확인하고 텍스트를 작성해야 했기ssanggo.tistory.com 이전에 발행한 게시글에서 단톡방에 내가 만든 bot을 초대해서 사용할 수 없는 문제가 있어서, 초대할 수 있는 챗봇을 만드는 것이 이번 목표였다. 단톡방에 초대할 수 있는 챗봇을 만들기 위해서는 우선, "새로운 카카오톡 계정"을 만들어야 한다. 그래서 통신사 부가서비스에 있는 듀얼넘버(.. Kakao Chat-bot 만들기 - 오픈빌더와 Flask를 이용한 MVP 제작 1. 프로젝트 개요나는 매일 오딘 길드의 보스 스케줄을 공지하는 역할을 맡고 있었다. 하지만 이 작업은 생각보다 꽤 번거롭고, 매일 밤마다 수동으로 시간을 확인하고 텍스트를 작성해야 했기 때문에, 반복적이고 소모적인 작업이 되었다. 길드 내에서 이 역할을 대신할 사람이 없었기에, **“차라리 이걸 자동화할 수는 없을까?”**라는 생각을 갖게 되었고, 이것이 챗봇 프로젝트의 출발점이었다. GPT와의 대화를 통해 이 아이디어를 구체화하면서, 단순히 스케줄 공지에 그치지 않고 오딘 전용 AI 비서 챗봇으로도 확장 가능성이 있다는 걸 깨달았다. 예를 들어, /boss 명령으로 보스 시간을 확인하거나, /ask로 사냥터를 추천받는 기능까지 가능할 수 있겠다는 생각이 들었고, 그때부터 이 프로젝트를 본격적으로 시작.. 이전 1 2 3 4 ··· 15 다음