전체 노트북 코드: 03a_ml_trends_and_techniques.py목적: 예지보전(Predictive Maintenance) 및 비전 이상탐지 모델에 적용할 수 있는 최신 ML 기술 트렌드 를 체계적으로 정리하고, 각 기법의 원리·적용 방법·Databricks 활용법을 상세히 설명합니다. 대상: ML 알고리즘의 진화 과정부터 AutoML, 앙상블, Feature Selection, 비정형 이상탐지, MLOps 자동화까지 제조 예지보전에 필요한 전 영역 을 다룹니다.
왜 제조업에 ML이 필요한가?
전통적인 제조 품질관리는 규칙 기반(Rule-based) 접근법에 의존합니다. “토크가 60Nm을 초과하면 경고”와 같은 고정 임계값은 단일 센서에만 의존하므로, 여러 변수의 복합적 상호작용 으로 발생하는 실제 설비 고장을 탐지하기 어렵습니다.| 접근법 | 원리 | 한계 |
|---|---|---|
| 고정 임계값 | 단일 센서값 기준 알람 | 복합 원인 탐지 불가, 오탐 과다 |
| 통계적 공정 관리 (SPC) | 관리도 기반 이상 탐지 | 비선형 패턴 탐지 어려움 |
| 머신러닝 | 다변량 패턴 자동 학습 | 데이터 품질과 양에 의존 |
1. ML 알고리즘의 진화 — 70년의 여정
ML 기술은 1950년대부터 꾸준히 발전해왔습니다. 제조업에서 실질적으로 활용 가능한 수준에 도달한 것은 2010년대 이후이며, 현재는 자동화(AutoML) 와 기반 모델(Foundation Models) 시대로 진입하고 있습니다.| 시대 | 핵심 발전 |
|---|---|
| 1950s | Perceptron (단층 신경망) — 최초의 학습 가능한 모델 |
| 1980s | Decision Tree, Neural Networks — 규칙 학습, 역전파 알고리즘 등장 |
| 1990s | SVM, Random Forest — 통계적 학습 이론의 전성기 |
| 2000s | Ensemble Methods (AdaBoost, GBM) — “약한 학습기를 결합하면 강해진다” |
| 2014 | XGBoost 등장 — Kaggle 대회 석권, 산업 표준으로 자리잡음 |
| 2017 | LightGBM, CatBoost — 더 빠르고 더 똑똑한 Gradient Boosting |
| 2020s | AutoML, Foundation Models — 알고리즘 선택과 튜닝까지 자동화 |
| 2024~ | TabPFN, CARTE — 정형 데이터용 Foundation Model 시대 개막 |
참고 제조업 관점: 2014년 XGBoost의 등장이 전환점이었습니다. 이전에는 ML 적용에 깊은 통계 지식이 필요했지만, XGBoost 이후로는 데이터만 잘 준비하면 강력한 예측 모델을 구축할 수 있게 되었습니다. 현재는 AutoML이 등장하여 알고리즘 선택과 하이퍼파라미터 튜닝까지 자동화되고 있습니다.
알고리즘 패밀리 — 직관적 이해
ML 알고리즘은 크게 세 가지 “가족”으로 분류할 수 있습니다:| 알고리즘 패밀리 | 비유 (제조 현장) | 대표 알고리즘 | 핵심 원리 |
|---|---|---|---|
| 배깅 (Bagging) | 10명의 검사원이 독립적으로 검사 후 다수결 | Random Forest | 여러 트리를 병렬로 학습, 다수결 투표 |
| 부스팅 (Boosting) | 선배 검사원의 실수를 후배가 보완 하며 연쇄 학습 | XGBoost, LightGBM, CatBoost | 순차 학습, 이전 오차를 다음 모델이 보정 |
| 딥러닝 (Deep Learning) | 수천 장의 불량 이미지를 보며 자체적으로 판단 기준 형성 | CNN, Transformer | 다층 신경망으로 특징 자동 추출 |
제조업에서 알고리즘을 고르는 기준
| 제조 상황 | 추천 알고리즘 | 이유 |
|---|---|---|
| 센서 데이터 기반 고장 예측 | XGBoost / LightGBM | 정형 데이터 분류에서 최고 성능 |
| 범주형 변수 다수 (설비 타입, 제품 등급) | CatBoost | 범주형 자동 인코딩, 전처리 최소화 |
| 빠른 프로토타이핑, 피처 중요도 분석 | Random Forest | 안정적이고 해석이 쉬움 |
| 대용량 데이터 (수백만 행 이상) | LightGBM | 속도 2~10배 빠름, 메모리 효율적 |
| 이미지 기반 외관 검사 | CNN / Vision Transformer | 시각 패턴 자동 학습 |
| 데이터 부족한 초기 PoC | AutoML + TabPFN | 사전 학습 모델로 소량 데이터에서도 성능 확보 |
| 모델 선택을 자동화하고 싶다면 | Databricks AutoML / FLAML | 알고리즘 + 하이퍼파라미터 자동 탐색 |
2. 최신 구조화 데이터 기법 — Gradient Boosting & Foundation Models
2.1 Gradient Boosting 앙상블 계열 발전
Gradient Boosting은 “실수를 반복 학습하여 점점 더 정확해지는” 알고리즘입니다. 품질 검사 라인에서 1번 검사원이 놓친 불량을 2번 검사원이 잡고, 2번이 놓친 것을 3번이 잡는 식으로 연쇄적으로 보완 하는 구조입니다.| 알고리즘 | 개발 | 핵심 혁신 | 장점 | 제조 적용 시나리오 |
|---|---|---|---|---|
| XGBoost | 2014, Tianqi Chen | L1/L2 정규화 + 병렬 트리 구축 | 안정적 성능, 산업 표준, 커뮤니티 최대 | 범용 고장 예측, 품질 분류 |
| LightGBM | 2017, Microsoft Research | Leaf-wise 성장, GOSS, EFB | 대규모 데이터에서 2~10배 빠른 학습 | 고차원 센서 데이터, 실시간 스코어링 |
| CatBoost | 2017, Yandex | 범주형 자동 인코딩, Ordered Boosting | 범주형 피처 전처리 불필요, 과적합 방지 | 설비 타입/제품 등급 등 범주형 다수 |
| HistGradientBoosting | 2019, scikit-learn | 히스토그램 기반 분할 | 별도 설치 불필요, 결측치 자동 처리 | 빠른 프로토타이핑, PoC |
2.2 정형 데이터용 Foundation Model (2024~)
2024년부터 정형 데이터에서도 사전 학습된 기반 모델 이 등장하고 있습니다:| 기술 | 원리 | 제조 적용 가능성 |
|---|---|---|
| TabPFN(2024) | 수백만 개의 합성 테이블로 사전 학습된 Transformer | 소량 데이터에서 XGBoost를 능가— 신규 설비 초기 데이터 부족 시 유용 |
| CARTE(2024) | 컬럼명의 의미를 활용한 사전 학습 | 유사한 설비의 데이터를 전이 학습 으로 활용 가능 |
| TabR(2023) | Retrieval-augmented 정형 데이터 학습 | 과거 유사 고장 사례를 검색하여 예측에 활용 |
참고 아직 Gradient Boosting이 대부분의 제조 데이터에서 최고 성능이지만, 데이터가 적은 상황(신규 설비, 희귀 고장)에서는 TabPFN 같은 Foundation Model이 대안이 될 수 있습니다.
왜 멀티 알고리즘 비교가 중요한가?
No Free Lunch Theorem (공짜 점심은 없다): 수학적으로 증명된 정리로, 모든 문제에 최적인 단일 알고리즘은 존재하지 않습니다. MLflow로 동일 조건 비교 가 가능하므로, 감이 아닌 데이터 기반 알고리즘 선택 을 할 수 있습니다.3. 불균형 데이터 처리 (Imbalanced Learning)
제조 데이터의 본질적 특성: 극심한 클래스 불균형
제조 예지보전 데이터는 극심한 클래스 불균형 이 특징입니다. AI4I 2020 데이터의 경우 고장률이 약 3.4% 에 불과합니다. 만약 모델이 “모두 양품”이라고 판정하면 정확도가 97%나 되지만, 불량을 단 하나도 찾지 못합니다.데이터 레벨 기법 (학습 데이터 자체를 변형)
| 기법 | 원리 | 장점 | 단점 |
|---|---|---|---|
| SMOTE | 소수 클래스 샘플 사이에 합성 데이터 생성 | 간단, 효과적 | 노이즈 생성 가능 |
| ADASYN | 학습하기 어려운 영역에 더 많은 합성 데이터 생성 | SMOTE보다 적응적 | 경계 과적합 |
| BorderlineSMOTE | 결정 경계 근처의 소수 클래스만 오버샘플링 | 노이즈 감소 | 파라미터 민감 |
| SMOTE-ENN | SMOTE 후 모호한 샘플 제거 | 오버샘플링 + 정제 | 계산 비용 높음 |
알고리즘 레벨 기법 (모델 학습 방식을 변형)
| 기법 | 원리 | 장점 | 단점 |
|---|---|---|---|
| class_weight / scale_pos_weight | 소수 클래스 오분류에 더 큰 패널티 부여 | 데이터 변형 없음 | 효과 제한적일 수 있음 |
| Focal Loss | 쉬운 샘플의 가중치를 줄여 어려운 샘플에 집중 | 딥러닝에 효과적 | 하이퍼파라미터 튜닝 필요 |
| Cost-sensitive Learning | 오분류 비용 행렬을 직접 정의 | 비즈니스 로직 반영 | 비용 정의가 어려움 |
AI4I 2020 데이터 권장 전략
주의 제조 예지보전에서는 Recall(고장 탐지율) 이 가장 중요합니다. Recall이 낮으면 실제 고장을 놓쳐 설비 다운타임이 발생합니다. MLflow로 각 불균형 처리 기법의 결과를 동일 조건에서 비교 하여 정량적 근거 기반 의사결정을 수행하세요.