Volumes란?
💡 Volume 은 Unity Catalog에서 비테이블 파일(이미지, PDF, CSV, 모델 파일, 로그 등)을 관리하는 저장 공간입니다. 테이블이 행/열 구조의 데이터를 관리한다면, Volume은 파일 자체 를 관리합니다.테이블과 동일한
카탈로그.스키마 체계에 속하므로, 동일한 권한 관리(GRANT/REVOKE)와 감사(Audit)가 적용됩니다.
Volume의 위치
| 수준 | 오브젝트 | 설명 |
|---|---|---|
| catalog > schema | tables | 행/열 데이터 |
| views | 뷰 | |
| volumes | 파일 데이터 | |
| └ my_volume | reports/report_2025.pdf | PDF 파일 |
images/product_001.jpg | 이미지 파일 | |
raw_data/orders_20250315.csv | CSV 원시 데이터 |
파일 경로 형식
Volume 유형
| 유형 | 설명 | 데이터 위치 |
|---|---|---|
| Managed Volume | Databricks가 스토리지 위치를 자동 관리합니다 | Databricks 관리 경로 |
| External Volume | 사용자가 지정한 외부 스토리지 경로를 사용합니다 | 고객 지정 경로 (S3, ADLS) |
파일 조작
SQL로 파일 다루기
Python으로 파일 다루기
REST API로 파일 업로드
권한 관리
활용 시나리오
| 시나리오 | 저장 파일 | 처리 방법 |
|---|---|---|
| RAG 문서 저장 | PDF, DOCX, 웹 페이지 | ai_parse_document로 파싱 → 청킹 → Vector Search |
| 원본 데이터 수집 | CSV, JSON, Parquet | Auto Loader로 읽어서 Delta 테이블에 적재 |
| ML 모델 아티팩트 | 모델 파일, 설정 파일 | MLflow 모델과 함께 관리 |
| 이미지/미디어 | 상품 이미지, 의료 영상 | Spark로 배치 처리, ML 모델 입력 |
| 보고서/내보내기 | PDF 리포트, Excel 파일 | 대시보드 결과를 파일로 내보내기 |