Skip to main content
제조업 ML의 필요성, 알고리즘 진화(70년의 여정), Gradient Boosting & Foundation Models, 불균형 데이터 처리, 하이퍼파라미터 최적화(HPO)를 다룹니다.
전체 노트북 코드: 03a_ml_trends_and_techniques.py

왜 제조업에 ML이 필요한가?

ML은 온도, 회전수, 토크, 공구 마모량 등 수십 개 센서의 상호작용 패턴 을 자동으로 학습하여, 사람이 발견하기 어려운 고장 전조 징후 를 포착합니다.

1. ML 알고리즘의 진화 — 70년의 여정

시대핵심 발전
1950sPerceptron (최초의 학습 가능한 모델)
1990sSVM, Random Forest
2014XGBoost — 산업 표준으로 자리잡음
2017LightGBM, CatBoost
2020sAutoML, Foundation Models
2024~TabPFN, CARTE — 정형 데이터용 Foundation Model

제조업에서 알고리즘을 고르는 기준

제조 상황추천 알고리즘
센서 데이터 기반 고장 예측XGBoost / LightGBM
범주형 변수 다수CatBoost
이미지 기반 외관 검사CNN / Vision Transformer
데이터 부족한 초기 PoCAutoML + TabPFN

2. 최신 구조화 데이터 기법

Gradient Boosting 앙상블 계열

알고리즘핵심 혁신장점
XGBoostL1/L2 정규화 + 병렬 트리안정적 성능, 산업 표준
LightGBMLeaf-wise 성장, GOSS2~10배 빠른 학습
CatBoost범주형 자동 인코딩전처리 불필요, 과적합 방지

정형 데이터용 Foundation Model (2024~)

기술제조 적용 가능성
TabPFN소량 데이터에서 XGBoost를 능가
CARTE유사 설비 데이터를 전이 학습으로 활용

3. 불균형 데이터 처리

제조 예지보전 데이터는 고장률 약 3.4% 의 극심한 클래스 불균형이 특징입니다.

데이터 레벨 기법

기법원리
SMOTE소수 클래스 사이에 합성 데이터 생성
SMOTE-ENNSMOTE 후 모호한 샘플 제거
BorderlineSMOTE결정 경계 근처만 오버샘플링

권장 전략

1순위: SMOTE-ENN
2순위: scale_pos_weight
3순위: BorderlineSMOTE
주의 제조 예지보전에서는 Recall(고장 탐지율) 이 가장 중요합니다.

4. HPO 최신 기법

기법장점Databricks 지원
Grid Search확실한 최적화scikit-learn 내장
Optuna적은 시행으로 최적화, 시각화 내장MLflow 자동 연동
HyperoptSpark 클러스터 분산 HPOSparkTrials 네이티브
FLAML알고리즘까지 자동 선택pip install

Optuna의 핵심 기능 — Pruning

학습 도중 가망 없는 조합을 즉시 중단하여 HPO 시간을 50~80% 절감 합니다.
import optuna

def objective(trial):
    params = {
        "max_depth": trial.suggest_int("max_depth", 3, 10),
        "learning_rate": trial.suggest_float("learning_rate", 0.01, 0.3, log=True),
    }
    return train_and_evaluate(params)

study = optuna.create_study(direction="maximize")
study.optimize(objective, n_trials=50)