첫 번째 실습

이 문서는 무료 체험 시작하기 의 일부입니다.

Workspace에 접속했다면, 간단한 실습으로 Databricks를 체험해 보겠습니다.

1. 클러스터 생성 및 시작

좌측 메뉴에서 Compute 클릭
Create Compute 클릭
클러스터 이름 입력 (예: my-first-cluster)
나머지는 기본값 유지 → Create Compute 클릭
약 3~5분 대기 (상태가 “Running”으로 변경되면 완료)

2. 노트북 생성

좌측 메뉴에서 + New → Notebook 클릭
이름: hello-databricks
기본 언어: Python
방금 만든 클러스터를 연결

3. 코드 실행

# 셀 1: Spark 버전 확인
print(f"Spark 버전: {spark.version}")
print("Hello, Databricks!")

# 셀 2: 샘플 데이터 생성 및 분석
from pyspark.sql.functions import col, sum, avg, count

orders = spark.createDataFrame([
    (1, "노트북", "전자제품", 1200000, "2025-03-01"),
    (2, "키보드", "전자제품", 89000, "2025-03-01"),
    (3, "운동화", "패션", 159000, "2025-03-02"),
    (4, "텀블러", "생활용품", 25000, "2025-03-02"),
    (5, "모니터", "전자제품", 450000, "2025-03-03"),
], ["order_id", "product", "category", "price", "order_date"])

summary = orders.groupBy("category").agg(
    count("*").alias("주문건수"),
    sum("price").alias("총매출"),
    avg("price").alias("평균단가")
).orderBy(col("총매출").desc())

display(summary)

4. SQL로 분석

orders.createOrReplaceTempView("orders")

%sql
SELECT
    order_date AS 주문일,
    COUNT(*) AS 주문건수,
    FORMAT_NUMBER(SUM(price), 0) AS 총매출
FROM orders
GROUP BY order_date
ORDER BY order_date

결과 아래 차트 아이콘을 클릭하고 Bar Chart를 선택하면 시각화됩니다.

5. Delta Lake 타임 트래블 체험

orders.write.mode("overwrite").saveAsTable("main.default.trial_orders")

%sql
-- 데이터 수정
UPDATE main.default.trial_orders SET price = 999000 WHERE product = '노트북';

-- 변경 이력 확인
DESCRIBE HISTORY main.default.trial_orders;

-- 수정 전 데이터 조회 (버전 0 = 최초 상태)
SELECT * FROM main.default.trial_orders VERSION AS OF 0 WHERE product = '노트북';
-- price가 원래의 1200000으로 나옵니다!

이것이 Delta Lake의 타임 트래블 기능입니다. 실수로 데이터를 잘못 수정해도 과거 버전으로 되돌릴 수 있습니다.

6. 샘플 데이터셋 활용 (Full Trial)

%sql
SELECT * FROM samples.nyctaxi.trips LIMIT 10;
SELECT * FROM samples.tpch.orders LIMIT 10;

7. Databricks Assistant (AI 코딩 도우미)

Notebook에서 자연어로 “이 DataFrame에서 카테고리별 평균 가격을 구해줘”라고 입력하면 코드를 자동 생성합니다.

시작하기

Databricks 플랫폼

레이크하우스 아키텍처

컴퓨트

데이터 엔지니어링

데이터 웨어하우징

Lakebase

Unity Catalog

AI/BI

머신러닝

AI 에이전트

GenAI 도구

Databricks Apps

보안과 거버넌스

개발 도구

플랫폼 비교

부록 — 선행 지식

부록 — 데이터 기초

부록 — 참고

1. 클러스터 생성 및 시작

2. 노트북 생성

3. 코드 실행

4. SQL로 분석

5. Delta Lake 타임 트래블 체험

6. 샘플 데이터셋 활용 (Full Trial)

7. Databricks Assistant (AI 코딩 도우미)

시작하기

Databricks 플랫폼

레이크하우스 아키텍처

컴퓨트

데이터 엔지니어링

데이터 웨어하우징

Lakebase

Unity Catalog

AI/BI

머신러닝

AI 에이전트

GenAI 도구

Databricks Apps

보안과 거버넌스

개발 도구

플랫폼 비교

부록 — 선행 지식

부록 — 데이터 기초

부록 — 참고

​1. 클러스터 생성 및 시작

​2. 노트북 생성

​3. 코드 실행

​4. SQL로 분석

​5. Delta Lake 타임 트래블 체험

​6. 샘플 데이터셋 활용 (Full Trial)

​7. Databricks Assistant (AI 코딩 도우미)

1. 클러스터 생성 및 시작

2. 노트북 생성

3. 코드 실행

4. SQL로 분석

5. Delta Lake 타임 트래블 체험

6. 샘플 데이터셋 활용 (Full Trial)

7. Databricks Assistant (AI 코딩 도우미)