# 셀 2: 샘플 데이터 생성 및 분석
from pyspark.sql.functions import col, sum, avg, count
orders = spark.createDataFrame([
(1, "노트북", "전자제품", 1200000, "2025-03-01"),
(2, "키보드", "전자제품", 89000, "2025-03-01"),
(3, "운동화", "패션", 159000, "2025-03-02"),
(4, "텀블러", "생활용품", 25000, "2025-03-02"),
(5, "모니터", "전자제품", 450000, "2025-03-03"),
], ["order_id", "product", "category", "price", "order_date"])
summary = orders.groupBy("category").agg(
count("*").alias("주문건수"),
sum("price").alias("총매출"),
avg("price").alias("평균단가")
).orderBy(col("총매출").desc())
display(summary)