Skip to main content
전체 노트북 코드: 03a_ml_trends_and_techniques.py
목적: 예지보전(Predictive Maintenance) 및 비전 이상탐지 모델에 적용할 수 있는 최신 ML 기술 트렌드 를 체계적으로 정리하고, 각 기법의 원리·적용 방법·Databricks 활용법을 상세히 설명합니다. 대상: ML 알고리즘의 진화 과정부터 AutoML, 앙상블, Feature Selection, 비정형 이상탐지, MLOps 자동화까지 제조 예지보전에 필요한 전 영역 을 다룹니다.

왜 제조업에 ML이 필요한가?

전통적인 제조 품질관리는 규칙 기반(Rule-based) 접근법에 의존합니다. “토크가 60Nm을 초과하면 경고”와 같은 고정 임계값은 단일 센서에만 의존하므로, 여러 변수의 복합적 상호작용 으로 발생하는 실제 설비 고장을 탐지하기 어렵습니다.
접근법원리한계
고정 임계값단일 센서값 기준 알람복합 원인 탐지 불가, 오탐 과다
통계적 공정 관리 (SPC)관리도 기반 이상 탐지비선형 패턴 탐지 어려움
머신러닝다변량 패턴 자동 학습데이터 품질과 양에 의존
ML은 온도, 회전수, 토크, 공구 마모량 등 수십 개 센서의 상호작용 패턴 을 자동으로 학습하여, 사람이 발견하기 어려운 고장 전조 징후(Precursor Signal) 를 포착합니다.

1. ML 알고리즘의 진화 — 70년의 여정

ML 기술은 1950년대부터 꾸준히 발전해왔습니다. 제조업에서 실질적으로 활용 가능한 수준에 도달한 것은 2010년대 이후이며, 현재는 자동화(AutoML)기반 모델(Foundation Models) 시대로 진입하고 있습니다.
시대핵심 발전
1950sPerceptron (단층 신경망) — 최초의 학습 가능한 모델
1980sDecision Tree, Neural Networks — 규칙 학습, 역전파 알고리즘 등장
1990sSVM, Random Forest — 통계적 학습 이론의 전성기
2000sEnsemble Methods (AdaBoost, GBM) — “약한 학습기를 결합하면 강해진다”
2014XGBoost 등장 — Kaggle 대회 석권, 산업 표준으로 자리잡음
2017LightGBM, CatBoost — 더 빠르고 더 똑똑한 Gradient Boosting
2020sAutoML, Foundation Models — 알고리즘 선택과 튜닝까지 자동화
2024~TabPFN, CARTE — 정형 데이터용 Foundation Model 시대 개막
참고 제조업 관점: 2014년 XGBoost의 등장이 전환점이었습니다. 이전에는 ML 적용에 깊은 통계 지식이 필요했지만, XGBoost 이후로는 데이터만 잘 준비하면 강력한 예측 모델을 구축할 수 있게 되었습니다. 현재는 AutoML이 등장하여 알고리즘 선택과 하이퍼파라미터 튜닝까지 자동화되고 있습니다.

알고리즘 패밀리 — 직관적 이해

ML 알고리즘은 크게 세 가지 “가족”으로 분류할 수 있습니다:
알고리즘 패밀리비유 (제조 현장)대표 알고리즘핵심 원리
배깅 (Bagging)10명의 검사원이 독립적으로 검사 후 다수결Random Forest여러 트리를 병렬로 학습, 다수결 투표
부스팅 (Boosting)선배 검사원의 실수를 후배가 보완 하며 연쇄 학습XGBoost, LightGBM, CatBoost순차 학습, 이전 오차를 다음 모델이 보정
딥러닝 (Deep Learning)수천 장의 불량 이미지를 보며 자체적으로 판단 기준 형성CNN, Transformer다층 신경망으로 특징 자동 추출

제조업에서 알고리즘을 고르는 기준

제조 상황추천 알고리즘이유
센서 데이터 기반 고장 예측XGBoost / LightGBM정형 데이터 분류에서 최고 성능
범주형 변수 다수 (설비 타입, 제품 등급)CatBoost범주형 자동 인코딩, 전처리 최소화
빠른 프로토타이핑, 피처 중요도 분석Random Forest안정적이고 해석이 쉬움
대용량 데이터 (수백만 행 이상)LightGBM속도 2~10배 빠름, 메모리 효율적
이미지 기반 외관 검사CNN / Vision Transformer시각 패턴 자동 학습
데이터 부족한 초기 PoCAutoML + TabPFN사전 학습 모델로 소량 데이터에서도 성능 확보
모델 선택을 자동화하고 싶다면Databricks AutoML / FLAML알고리즘 + 하이퍼파라미터 자동 탐색

2. 최신 구조화 데이터 기법 — Gradient Boosting & Foundation Models

2.1 Gradient Boosting 앙상블 계열 발전

Gradient Boosting은 “실수를 반복 학습하여 점점 더 정확해지는” 알고리즘입니다. 품질 검사 라인에서 1번 검사원이 놓친 불량을 2번 검사원이 잡고, 2번이 놓친 것을 3번이 잡는 식으로 연쇄적으로 보완 하는 구조입니다.
알고리즘개발핵심 혁신장점제조 적용 시나리오
XGBoost2014, Tianqi ChenL1/L2 정규화 + 병렬 트리 구축안정적 성능, 산업 표준, 커뮤니티 최대범용 고장 예측, 품질 분류
LightGBM2017, Microsoft ResearchLeaf-wise 성장, GOSS, EFB대규모 데이터에서 2~10배 빠른 학습고차원 센서 데이터, 실시간 스코어링
CatBoost2017, Yandex범주형 자동 인코딩, Ordered Boosting범주형 피처 전처리 불필요, 과적합 방지설비 타입/제품 등급 등 범주형 다수
HistGradientBoosting2019, scikit-learn히스토그램 기반 분할별도 설치 불필요, 결측치 자동 처리빠른 프로토타이핑, PoC

2.2 정형 데이터용 Foundation Model (2024~)

2024년부터 정형 데이터에서도 사전 학습된 기반 모델 이 등장하고 있습니다:
기술원리제조 적용 가능성
TabPFN(2024)수백만 개의 합성 테이블로 사전 학습된 Transformer소량 데이터에서 XGBoost를 능가— 신규 설비 초기 데이터 부족 시 유용
CARTE(2024)컬럼명의 의미를 활용한 사전 학습유사한 설비의 데이터를 전이 학습 으로 활용 가능
TabR(2023)Retrieval-augmented 정형 데이터 학습과거 유사 고장 사례를 검색하여 예측에 활용
참고 아직 Gradient Boosting이 대부분의 제조 데이터에서 최고 성능이지만, 데이터가 적은 상황(신규 설비, 희귀 고장)에서는 TabPFN 같은 Foundation Model이 대안이 될 수 있습니다.

왜 멀티 알고리즘 비교가 중요한가?

No Free Lunch Theorem (공짜 점심은 없다): 수학적으로 증명된 정리로, 모든 문제에 최적인 단일 알고리즘은 존재하지 않습니다. MLflow로 동일 조건 비교 가 가능하므로, 감이 아닌 데이터 기반 알고리즘 선택 을 할 수 있습니다.

3. 불균형 데이터 처리 (Imbalanced Learning)

제조 데이터의 본질적 특성: 극심한 클래스 불균형

제조 예지보전 데이터는 극심한 클래스 불균형 이 특징입니다. AI4I 2020 데이터의 경우 고장률이 약 3.4% 에 불과합니다. 만약 모델이 “모두 양품”이라고 판정하면 정확도가 97%나 되지만, 불량을 단 하나도 찾지 못합니다.

데이터 레벨 기법 (학습 데이터 자체를 변형)

기법원리장점단점
SMOTE소수 클래스 샘플 사이에 합성 데이터 생성간단, 효과적노이즈 생성 가능
ADASYN학습하기 어려운 영역에 더 많은 합성 데이터 생성SMOTE보다 적응적경계 과적합
BorderlineSMOTE결정 경계 근처의 소수 클래스만 오버샘플링노이즈 감소파라미터 민감
SMOTE-ENNSMOTE 후 모호한 샘플 제거오버샘플링 + 정제계산 비용 높음

알고리즘 레벨 기법 (모델 학습 방식을 변형)

기법원리장점단점
class_weight / scale_pos_weight소수 클래스 오분류에 더 큰 패널티 부여데이터 변형 없음효과 제한적일 수 있음
Focal Loss쉬운 샘플의 가중치를 줄여 어려운 샘플에 집중딥러닝에 효과적하이퍼파라미터 튜닝 필요
Cost-sensitive Learning오분류 비용 행렬을 직접 정의비즈니스 로직 반영비용 정의가 어려움

AI4I 2020 데이터 권장 전략

1순위: SMOTE-ENN — 합성 데이터 생성 + 노이즈 제거, 가장 균형 잡힌 접근
2순위: scale_pos_weight — 모델 내장 기능으로 가장 간단, 추가 라이브러리 불필요
3순위: BorderlineSMOTE — 경계선 중심 합성, SMOTE보다 정교한 오버샘플링
# SMOTE-ENN 적용 예시
from imblearn.combine import SMOTEENN
from imblearn.over_sampling import SMOTE

smote_enn = SMOTEENN(
    smote=SMOTE(sampling_strategy=0.5, k_neighbors=5, random_state=42)
)
X_resampled, Y_resampled = smote_enn.fit_resample(X_train, Y_train)
# 원본: 정상 7,700 / 고장 270  →  SMOTE-ENN 후: 균형 잡힌 데이터
주의 제조 예지보전에서는 Recall(고장 탐지율) 이 가장 중요합니다. Recall이 낮으면 실제 고장을 놓쳐 설비 다운타임이 발생합니다. MLflow로 각 불균형 처리 기법의 결과를 동일 조건에서 비교 하여 정량적 근거 기반 의사결정을 수행하세요.