ML 트렌드 개요

전체 노트북 코드: 03a_ml_trends_and_techniques.py

목적: 예지보전(Predictive Maintenance) 및 비전 이상탐지 모델에 적용할 수 있는 최신 ML 기술 트렌드 를 체계적으로 정리하고, 각 기법의 원리·적용 방법·Databricks 활용법을 상세히 설명합니다. 대상: ML 알고리즘의 진화 과정부터 AutoML, 앙상블, Feature Selection, 비정형 이상탐지, MLOps 자동화까지 제조 예지보전에 필요한 전 영역 을 다룹니다.

왜 제조업에 ML이 필요한가?

전통적인 제조 품질관리는 규칙 기반(Rule-based) 접근법에 의존합니다. “토크가 60Nm을 초과하면 경고”와 같은 고정 임계값은 단일 센서에만 의존하므로, 여러 변수의 복합적 상호작용 으로 발생하는 실제 설비 고장을 탐지하기 어렵습니다.

접근법	원리	한계
고정 임계값	단일 센서값 기준 알람	복합 원인 탐지 불가, 오탐 과다
통계적 공정 관리 (SPC)	관리도 기반 이상 탐지	비선형 패턴 탐지 어려움
머신러닝	다변량 패턴 자동 학습	데이터 품질과 양에 의존

ML은 온도, 회전수, 토크, 공구 마모량 등 수십 개 센서의 상호작용 패턴 을 자동으로 학습하여, 사람이 발견하기 어려운 고장 전조 징후(Precursor Signal) 를 포착합니다.

1. ML 알고리즘의 진화 — 70년의 여정

ML 기술은 1950년대부터 꾸준히 발전해왔습니다. 제조업에서 실질적으로 활용 가능한 수준에 도달한 것은 2010년대 이후이며, 현재는 자동화(AutoML) 와 기반 모델(Foundation Models) 시대로 진입하고 있습니다.

시대	핵심 발전
1950s	Perceptron (단층 신경망) — 최초의 학습 가능한 모델
1980s	Decision Tree, Neural Networks — 규칙 학습, 역전파 알고리즘 등장
1990s	SVM, Random Forest — 통계적 학습 이론의 전성기
2000s	Ensemble Methods (AdaBoost, GBM) — “약한 학습기를 결합하면 강해진다”
2014	XGBoost 등장 — Kaggle 대회 석권, 산업 표준으로 자리잡음
2017	LightGBM, CatBoost — 더 빠르고 더 똑똑한 Gradient Boosting
2020s	AutoML, Foundation Models — 알고리즘 선택과 튜닝까지 자동화
2024~	TabPFN, CARTE — 정형 데이터용 Foundation Model 시대 개막

참고 제조업 관점: 2014년 XGBoost의 등장이 전환점이었습니다. 이전에는 ML 적용에 깊은 통계 지식이 필요했지만, XGBoost 이후로는 데이터만 잘 준비하면 강력한 예측 모델을 구축할 수 있게 되었습니다. 현재는 AutoML이 등장하여 알고리즘 선택과 하이퍼파라미터 튜닝까지 자동화되고 있습니다.

알고리즘 패밀리 — 직관적 이해

ML 알고리즘은 크게 세 가지 “가족”으로 분류할 수 있습니다:

알고리즘 패밀리	비유 (제조 현장)	대표 알고리즘	핵심 원리
배깅 (Bagging)	10명의 검사원이 독립적으로 검사 후 다수결	Random Forest	여러 트리를 병렬로 학습, 다수결 투표
부스팅 (Boosting)	선배 검사원의 실수를 후배가 보완 하며 연쇄 학습	XGBoost, LightGBM, CatBoost	순차 학습, 이전 오차를 다음 모델이 보정
딥러닝 (Deep Learning)	수천 장의 불량 이미지를 보며 자체적으로 판단 기준 형성	CNN, Transformer	다층 신경망으로 특징 자동 추출

제조업에서 알고리즘을 고르는 기준

제조 상황	추천 알고리즘	이유
센서 데이터 기반 고장 예측	XGBoost / LightGBM	정형 데이터 분류에서 최고 성능
범주형 변수 다수 (설비 타입, 제품 등급)	CatBoost	범주형 자동 인코딩, 전처리 최소화
빠른 프로토타이핑, 피처 중요도 분석	Random Forest	안정적이고 해석이 쉬움
대용량 데이터 (수백만 행 이상)	LightGBM	속도 2~10배 빠름, 메모리 효율적
이미지 기반 외관 검사	CNN / Vision Transformer	시각 패턴 자동 학습
데이터 부족한 초기 PoC	AutoML + TabPFN	사전 학습 모델로 소량 데이터에서도 성능 확보
모델 선택을 자동화하고 싶다면	Databricks AutoML / FLAML	알고리즘 + 하이퍼파라미터 자동 탐색

2. 최신 구조화 데이터 기법 — Gradient Boosting & Foundation Models

2.1 Gradient Boosting 앙상블 계열 발전

Gradient Boosting은 “실수를 반복 학습하여 점점 더 정확해지는” 알고리즘입니다. 품질 검사 라인에서 1번 검사원이 놓친 불량을 2번 검사원이 잡고, 2번이 놓친 것을 3번이 잡는 식으로 연쇄적으로 보완 하는 구조입니다.

알고리즘	개발	핵심 혁신	장점	제조 적용 시나리오
XGBoost	2014, Tianqi Chen	L1/L2 정규화 + 병렬 트리 구축	안정적 성능, 산업 표준, 커뮤니티 최대	범용 고장 예측, 품질 분류
LightGBM	2017, Microsoft Research	Leaf-wise 성장, GOSS, EFB	대규모 데이터에서 2~10배 빠른 학습	고차원 센서 데이터, 실시간 스코어링
CatBoost	2017, Yandex	범주형 자동 인코딩, Ordered Boosting	범주형 피처 전처리 불필요, 과적합 방지	설비 타입/제품 등급 등 범주형 다수
HistGradientBoosting	2019, scikit-learn	히스토그램 기반 분할	별도 설치 불필요, 결측치 자동 처리	빠른 프로토타이핑, PoC

2.2 정형 데이터용 Foundation Model (2024~)

2024년부터 정형 데이터에서도 사전 학습된 기반 모델 이 등장하고 있습니다:

기술	원리	제조 적용 가능성
TabPFN(2024)	수백만 개의 합성 테이블로 사전 학습된 Transformer	소량 데이터에서 XGBoost를 능가— 신규 설비 초기 데이터 부족 시 유용
CARTE(2024)	컬럼명의 의미를 활용한 사전 학습	유사한 설비의 데이터를 전이 학습 으로 활용 가능
TabR(2023)	Retrieval-augmented 정형 데이터 학습	과거 유사 고장 사례를 검색하여 예측에 활용

참고 아직 Gradient Boosting이 대부분의 제조 데이터에서 최고 성능이지만, 데이터가 적은 상황(신규 설비, 희귀 고장)에서는 TabPFN 같은 Foundation Model이 대안이 될 수 있습니다.

왜 멀티 알고리즘 비교가 중요한가?

No Free Lunch Theorem (공짜 점심은 없다): 수학적으로 증명된 정리로, 모든 문제에 최적인 단일 알고리즘은 존재하지 않습니다. MLflow로 동일 조건 비교 가 가능하므로, 감이 아닌 데이터 기반 알고리즘 선택 을 할 수 있습니다.

3. 불균형 데이터 처리 (Imbalanced Learning)

제조 데이터의 본질적 특성: 극심한 클래스 불균형

제조 예지보전 데이터는 극심한 클래스 불균형 이 특징입니다. AI4I 2020 데이터의 경우 고장률이 약 3.4% 에 불과합니다. 만약 모델이 “모두 양품”이라고 판정하면 정확도가 97%나 되지만, 불량을 단 하나도 찾지 못합니다.

데이터 레벨 기법 (학습 데이터 자체를 변형)

기법	원리	장점	단점
SMOTE	소수 클래스 샘플 사이에 합성 데이터 생성	간단, 효과적	노이즈 생성 가능
ADASYN	학습하기 어려운 영역에 더 많은 합성 데이터 생성	SMOTE보다 적응적	경계 과적합
BorderlineSMOTE	결정 경계 근처의 소수 클래스만 오버샘플링	노이즈 감소	파라미터 민감
SMOTE-ENN	SMOTE 후 모호한 샘플 제거	오버샘플링 + 정제	계산 비용 높음

알고리즘 레벨 기법 (모델 학습 방식을 변형)

기법	원리	장점	단점
class_weight / scale_pos_weight	소수 클래스 오분류에 더 큰 패널티 부여	데이터 변형 없음	효과 제한적일 수 있음
Focal Loss	쉬운 샘플의 가중치를 줄여 어려운 샘플에 집중	딥러닝에 효과적	하이퍼파라미터 튜닝 필요
Cost-sensitive Learning	오분류 비용 행렬을 직접 정의	비즈니스 로직 반영	비용 정의가 어려움

AI4I 2020 데이터 권장 전략

1순위: SMOTE-ENN — 합성 데이터 생성 + 노이즈 제거, 가장 균형 잡힌 접근
2순위: scale_pos_weight — 모델 내장 기능으로 가장 간단, 추가 라이브러리 불필요
3순위: BorderlineSMOTE — 경계선 중심 합성, SMOTE보다 정교한 오버샘플링

# SMOTE-ENN 적용 예시
from imblearn.combine import SMOTEENN
from imblearn.over_sampling import SMOTE

smote_enn = SMOTEENN(
    smote=SMOTE(sampling_strategy=0.5, k_neighbors=5, random_state=42)
)
X_resampled, Y_resampled = smote_enn.fit_resample(X_train, Y_train)
# 원본: 정상 7,700 / 고장 270  →  SMOTE-ENN 후: 균형 잡힌 데이터

주의 제조 예지보전에서는 Recall(고장 탐지율) 이 가장 중요합니다. Recall이 낮으면 실제 고장을 놓쳐 설비 다운타임이 발생합니다. MLflow로 각 불균형 처리 기법의 결과를 동일 조건에서 비교 하여 정량적 근거 기반 의사결정을 수행하세요.

GenAI 핵심 개념

RAG (검색 증강 생성)

ML 핵심 개념

MCP (Model Context Protocol)

왜 제조업에 ML이 필요한가?

1. ML 알고리즘의 진화 — 70년의 여정

알고리즘 패밀리 — 직관적 이해

제조업에서 알고리즘을 고르는 기준

2. 최신 구조화 데이터 기법 — Gradient Boosting & Foundation Models

2.1 Gradient Boosting 앙상블 계열 발전

2.2 정형 데이터용 Foundation Model (2024~)

왜 멀티 알고리즘 비교가 중요한가?

3. 불균형 데이터 처리 (Imbalanced Learning)

제조 데이터의 본질적 특성: 극심한 클래스 불균형

데이터 레벨 기법 (학습 데이터 자체를 변형)

알고리즘 레벨 기법 (모델 학습 방식을 변형)

AI4I 2020 데이터 권장 전략

GenAI 핵심 개념

RAG (검색 증강 생성)

ML 핵심 개념

MCP (Model Context Protocol)

​왜 제조업에 ML이 필요한가?

​1. ML 알고리즘의 진화 — 70년의 여정

​알고리즘 패밀리 — 직관적 이해

​제조업에서 알고리즘을 고르는 기준

​2. 최신 구조화 데이터 기법 — Gradient Boosting & Foundation Models

​2.1 Gradient Boosting 앙상블 계열 발전

​2.2 정형 데이터용 Foundation Model (2024~)

​왜 멀티 알고리즘 비교가 중요한가?

​3. 불균형 데이터 처리 (Imbalanced Learning)

​제조 데이터의 본질적 특성: 극심한 클래스 불균형

​데이터 레벨 기법 (학습 데이터 자체를 변형)

​알고리즘 레벨 기법 (모델 학습 방식을 변형)

​AI4I 2020 데이터 권장 전략

왜 제조업에 ML이 필요한가?

1. ML 알고리즘의 진화 — 70년의 여정

알고리즘 패밀리 — 직관적 이해

제조업에서 알고리즘을 고르는 기준

2. 최신 구조화 데이터 기법 — Gradient Boosting & Foundation Models

2.1 Gradient Boosting 앙상블 계열 발전

2.2 정형 데이터용 Foundation Model (2024~)

왜 멀티 알고리즘 비교가 중요한가?

3. 불균형 데이터 처리 (Imbalanced Learning)

제조 데이터의 본질적 특성: 극심한 클래스 불균형

데이터 레벨 기법 (학습 데이터 자체를 변형)

알고리즘 레벨 기법 (모델 학습 방식을 변형)

AI4I 2020 데이터 권장 전략