AutoML이란?
AutoML(Automated Machine Learning) 은 데이터를 입력하면 자동으로 전처리, 모델 선택, 하이퍼파라미터 튜닝, 평가 까지 수행하여 최적의 모델을 찾아주는 기능입니다. ML 전문 지식이 없어도 빠르게 좋은 성능의 모델을 얻을 수 있습니다.💡 AutoML은 블랙박스가 아닙니다. Databricks AutoML의 핵심 차별점은 각 시행(trial)의 전체 코드가 담긴 노트북을 자동 생성 한다는 것입니다. 결과를 검토하고, 필요한 부분을 수정하여 직접 커스터마이즈할 수 있습니다.
지원하는 문제 유형
| 문제 유형 | API 함수 | 평가 지표 | 설명 |
|---|---|---|---|
| 분류 (Classification) | automl.classify() | F1, Accuracy, ROC-AUC, Log Loss | 이진/다중 클래스 분류 |
| 회귀 (Regression) | automl.regress() | RMSE, MAE, R², MSE | 연속 값 예측 |
| 시계열 예측 (Forecasting) | automl.forecast() | SMAPE, RMSE, MSE, MAE | 시계열 데이터 예측 |
UI에서 AutoML 사용하기
실행 순서
- 좌측 메뉴에서 Experiments 클릭
- Create AutoML Experiment 선택
- 설정 입력:
- Dataset: Delta 테이블 또는 DataFrame 선택
- Prediction target: 예측할 컬럼 선택
- Problem type: 분류 / 회귀 / 시계열 예측 선택
- 고급 설정(선택):
- Timeout (최대 실행 시간)
- Evaluation metric (평가 지표)
- Training frameworks (사용할 알고리즘)
- Start 클릭
UI에서 결과 확인
실행이 완료되면 다음을 확인할 수 있습니다:| 확인 항목 | 설명 |
|---|---|
| 리더보드 | 모든 시행의 성능 지표를 비교합니다 |
| 최적 모델 | 가장 좋은 성능의 모델이 하이라이트됩니다 |
| 생성된 노트북 | 각 시행의 전체 코드를 담은 노트북 링크입니다 |
| 피처 중요도 | SHAP 기반 피처 중요도 그래프입니다 |
API에서 AutoML 사용하기
분류 (Classification)
회귀 (Regression)
시계열 예측 (Forecasting)
AutoML 주요 파라미터
| 파라미터 | 설명 | 기본값 |
|---|---|---|
dataset | 학습 데이터 (테이블 경로 또는 DataFrame)입니다 | (필수) |
target_col | 예측 대상 컬럼입니다 | (필수) |
primary_metric | 최적화할 평가 지표입니다 | 문제 유형에 따라 자동 |
timeout_minutes | 최대 실행 시간(분)입니다 | 120 |
max_trials | 최대 시행(모델 학습) 수입니다 | None (시간 제한 내 최대) |
exclude_cols | 학습에서 제외할 컬럼 목록입니다 | [] |
exclude_frameworks | 제외할 알고리즘 프레임워크입니다 | [] |
experiment_dir | MLflow 실험 저장 경로입니다 | 기본 디렉토리 |
생성된 노트북 활용
AutoML이 생성하는 노트북에는 다음 내용이 포함되어 있습니다:| 섹션 | 내용 |
|---|---|
| 데이터 전처리 | 결측값 처리, 인코딩, 스케일링 코드 |
| 피처 엔지니어링 | 날짜 분해, 상호작용 피처 등 |
| 모델 학습 | 알고리즘 설정, 하이퍼파라미터 |
| 평가 | 교차 검증, 지표 계산, 혼동 행렬 |
| SHAP 분석 | 피처 중요도 시각화 |
노트북 커스터마이징 워크플로
| 단계 | 작업 | 설명 |
|---|---|---|
| 1 | AutoML 실행 | 자동으로 여러 모델을 학습합니다 |
| 2 | 노트북 다운로드 | AutoML이 생성한 노트북을 다운로드합니다 |
| 3 | 코드 검토 및 수정 | 생성된 코드를 검토하고 필요에 따라 수정합니다 |
| 4 | 추가 피처 엔지니어링 | 도메인 지식을 반영하여 피처를 추가합니다 |
| 5 | 하이퍼파라미터 세밀 조정 | 모델 성능을 최적화합니다 |
| 6 | 최종 모델 MLflow 등록 | 최종 모델을 MLflow에 등록합니다 |
MLflow 자동 연동
AutoML의 모든 시행(trial)은 MLflow에 자동으로 로깅 됩니다.| 자동 기록 항목 | 설명 |
|---|---|
| 파라미터 | 알고리즘, 하이퍼파라미터 |
| 지표 | 학습/검증 성능 지표 |
| 모델 아티팩트 | 학습된 모델 파일 |
| 피처 중요도 | SHAP 기반 중요도 그래프 |
| 노트북 | 해당 시행의 전체 코드 노트북 |
AutoML 시행에서 사용되는 알고리즘
| 알고리즘 | 문제 유형 | 특징 |
|---|---|---|
| XGBoost | 분류, 회귀 | 정형 데이터에서 최고 성능, Gradient Boosting |
| LightGBM | 분류, 회귀 | 대용량 데이터에서 빠른 학습 |
| sklearn (RF, LR) | 분류, 회귀 | Random Forest, Logistic/Linear Regression |
| Prophet | 시계열 예측 | Meta의 시계열 예측 라이브러리 |
| ARIMA | 시계열 예측 | 전통적 시계열 분석 |
현업 사례: AutoML 결과를 그대로 프로덕션에 올리면 안 되는 이유
🔥 AutoML의 가장 큰 오해: “자동이니까 바로 배포해도 되겠지”AutoML은 놀라울 정도로 좋은 성능을 보여주지만, 그 결과를 검증 없이 프로덕션에 배포하는 것은 위험 합니다. 현업에서 자주 보는 실수 패턴을 살펴보겠습니다.
AutoML 결과를 바로 배포했을 때 벌어지는 일
AutoML이 해주지 않는 것들
| 단계 | AutoML이 해주는 것 | 사람이 해야 하는 것 |
|---|---|---|
| 데이터 이해 | 기본 통계 | 비즈니스 맥락 이해, 편향 확인 |
| 피처 선택 | 자동 선택 | 도메인 지식 기반 피처 검증 (data leakage 확인) |
| 모델 학습 | 최적 알고리즘/하이퍼파라미터 탐색 | 결과 해석, 비즈니스 로직 확인 |
| 평가 | 수치 메트릭 (F1, RMSE) | 슬라이스별 성능 확인 (성별, 연령대별 편향) |
| 배포 | MLflow 등록 | A/B 테스트, 모니터링, 롤백 계획 |
| 운영 | - | Data Drift 감지, 주기적 재학습 |
AutoML이 정말 유용한 경우: 베이스라인(Baseline) 설정
💡 AutoML의 진짜 가치는 “프로덕션 모델”이 아니라 “베이스라인”입니다.현업에서 AutoML은 다음 상황에서 가장 빛납니다.
유용한 시나리오 1: “이 데이터로 예측이 가능한가?” 타당성 검증
유용한 시나리오 2: 수동 모델 개선의 기준선
유용한 시나리오 3: 비전문가가 빠르게 결과를 내야 할 때
생성된 노트북을 커스터마이징하는 실전 패턴
AutoML이 생성하는 노트북은 수정 가능한 출발점 입니다. 현업에서 가장 많이 커스터마이징하는 부분을 소개합니다.커스터마이징 포인트 1: 피처 엔지니어링 추가
커스터마이징 포인트 2: 데이터 분할 전략 변경
커스터마이징 포인트 3: 슬라이스별 성능 평가 추가
커스터마이징 포인트 4: MLflow에 최종 모델 등록
💡 현업 팁: AutoML → 커스터마이징 → MLflow 등록 → Model Serving 배포의 전체 사이클을 처음에 1~2일 만에 완주하는 것을 목표로 하세요. 완벽한 모델을 만드는 것보다 빠르게 전체 파이프라인을 구축하고, 이후에 모델을 개선하는 접근이 현업에서 훨씬 효과적입니다. 많은 팀이 “모델 성능을 0.01 올리는 데 2주”를 쓰면서 배포 파이프라인은 구축하지 않습니다. 그러면 아무리 좋은 모델도 비즈니스 가치를 만들 수 없습니다.
정리
| 핵심 개념 | 설명 |
|---|---|
| AutoML | 데이터를 주면 자동으로 전처리, 모델 선택, 튜닝을 수행합니다 |
| 3가지 문제 유형 | 분류(classify), 회귀(regress), 시계열 예측(forecast)을 지원합니다 |
| 노트북 생성 | 각 시행의 전체 코드가 담긴 노트북이 자동 생성되어 커스터마이즈할 수 있습니다 |
| MLflow 연동 | 모든 시행이 MLflow에 자동 로깅되어 비교, 추적, 배포가 가능합니다 |
| SHAP 분석 | 피처 중요도를 자동으로 계산하여 모델 해석성을 제공합니다 |