카테고리 없음

[내일배움캠프] QAQC_6기 어렵다 어려워 머신러닝 ㅠ

blog63677 2026. 6. 24. 20:26

이상치 탐지와 머신러닝 실무 핵심 요약

개요

이 강의는 이상치(Outlier) 탐지불균형 데이터 처리, 평가 지표, 모델 배포 및 유지보수, AutoMLXAI까지 머신러닝 전 과정을 실무 중심으로 설명한다. 특히 제조/품질 관리(QA/QC) 환경에서 흔히 마주치는 상황과 해결책을 사례와 함께 제시한다.
 

주요 개념

개념정의실무 적용 예시
점 이상치 (Point Outlier)
전체 분포에서 단일 데이터가 크게 벗어남
센서 오작동으로 5000 °C 기록
상황적 이상치 (Contextual Outlier)
값은 정상 범위에 있으나 상황(시간, 기후 등)에서 비정상
겨울 새벽 30 °C
집단 이상치 (Collective Outlier)
개별은 정상이지만 특정 패턴·집합에서 비정상
모터 센서 데이터가 갑작스럽게 하락
불균형 데이터 (Class Imbalance)
정상 데이터 >> 이상(불량) 데이터
정상 99 % / 이상 1 %
평가 지표
정밀도 (Precision), 재현율 (Recall), F1‑score, ROC‑AUC
불량 탐지 모델에서 Precision이 낮으면 작업자 피로, Recall가 낮으면 누락 위험
샘플링 기법
언더샘플링(데이터 감소), 오버샘플링(데이터 증가)
정상 10 k, 이상 1 k → 언더: 정상 1 k
SMOTE
가상의 이상 샘플을 생성
K‑최근접이웃 기반 선형 보간
Isolation Forest
트리 기반 분리 과정에서 빠르게 격리되는 데이터 판단
99.99 %는 ‘아니오’, 1 %는 ‘예오’
LOF (Local Outlier Factor)
주변 밀도 차이로 이상치 판별
데이터 밀도 0.1 → 이상치
Autoencoder
입력 → 압축 → 재구성 차이(오차)로 이상치 판별
복원 오차가 큰 점을 이상치로 표시
AutoML
데이터 전처리·모델 선택·하이퍼파라미터 튜닝까지 자동화
PyCaret, H2O 등
XAI (Explainable AI)
모델 해석·특성 중요도·SHAP 값
“온도가 150 °C 이상이면 불량 확률 30 % 상승”
 

상세 내용

1. 이상치 탐지 종류

  • 점 이상치: 시각화(선, 산점도)로 한눈에 식별.
  • 상황적 이상치: 시계열·컨텍스트(계절, 온도 등)를 고려해 판단.
  • 집단 이상치: 패턴/시퀀스가 정상과 차이 발생 시 탐지(예: 모터 주파수 급락).

2. 불균형 데이터 문제

  • **정확도(Accuracy)**는 편향된 평가 지표 → Precision / Recall / F1 / ROC‑AUC 활용 필요.
  • 학습 정보 부족: 1 % 이상 데이터는 모델이 제대로 학습하지 못함.
  • 다수파 편향: 모델이 정상 클래스를 과도하게 맞춤.

3. 해결 방법

방법장점단점
평가 지표 교체
정밀도·재현율·F1로 실질적 성능 평가
구현 복잡성 증가
샘플링
데이터 균형 조정
언더샘플링: 데이터 손실 오버샘플링: 과적합 위험
SMOTE
가상의 이상 샘플 생성
실제 분포와 차이 발생 가능
모델 가중치 조정
손실 함수에 가중치 부여
가중치 설정 주관적
Algorithmic 솔루션
Isolation Forest, LOF, Autoencoder 등
데이터 특성에 따라 성능 차이
재학습 주기
컨셉트 드리프트 대응
리소스 소모

4. 모델 평가

  • Confusion MatrixPrecision, Recall, F1 계산.
  • ROC‑AUC: 임계값 변화에 따른 성능 시각화.
  • 시뮬레이션: 임계값 조정 시 지표 변화 확인.

5. 모델 배포·유지보수

  • 실시간 시스템 통합: Jupyter → 운영 환경 변환.
  • 컨셉트 드리프트: 주기적 재학습 (3–6 개월, 성능 저하 시).
  • 데이터 품질 관리: 결측치(선형 보간, 모델 기반 채우기), 노이즈(스케일링, 정규화).

6. AutoML 활용

  • PyCaret 등 로우코드 툴: 데이터 전처리, 모델 학습, 하이퍼파라미터 자동 튜닝.
  • 장점: 빠른 베이스라인 모델 확보, 도메인 지식 부족 시 유용.
  • 주의: 결과 해석과 도메인 검증은 여전히 수동 필요.

7. Explainable AI (XAI)

  • Feature Importance: 전반적 변수 영향도.
  • SHAP / LIME: 개별 데이터 포인트의 예측 이유 상세 설명.
  • 비즈니스 인사이트 도출: “온도 > 150 °C → 불량률 30 %” 등 실질적 개선 제시.
 

실무에서 꼭 기억할 점

  1. 불균형 데이터는 정확도만 보고 판단하면 안 된다. 정밀도·재현율·F1·ROC‑AUC를 함께 확인.
  1. 이상치점·상황·집단으로 구분해 탐지 전략을 세워야 함.
  1. 데이터 품질이 가장 중요. 결측치, 노이즈 처리에 시간을 투자.
  1. 모델 배포 후에는 컨셉트 드리프트 대응과 주기적 재학습이 필수.
  1. AutoML은 편리하지만 인간 해석(XAI)과 도메인 검증은 반드시 병행.
핵심 Takeaway 제조/품질 관리 환경에서는 불균형 데이터다양한 이상치가 공통적인 과제이므로, 다양한 알고리즘·샘플링 기법·정확한 평가 지표를 조합해 균형 잡힌 모델을 만들고, 지속적인 모니터링도메인 기반 해석으로 운영에 적용해야 한다.

 

 

오늘 머신러닝 심화 라이브 세션에서는 이상치 탐지부터 불균형 데이터 처리, 모델 평가, 그리고 실제 운영 단계까지 머신러닝 전체 흐름을 실무 관점에서 다시 정리하는 내용이었다.


이상치는 단순히 “튀는 값”이 아니라 발생 상황에 따라 점 이상치, 상황적 이상치, 집단 이상치로 나뉘고 각각 접근 방식이 다르다는 점이 핵심이었다. 예를 들어 센서 하나가 비정상적으로 높은 값을 찍는 경우는 점 이상치지만, 시간이나 환경 조건에 따라 정상처럼 보이지만 비정상인 경우는 상황적 이상치로 판단해야 한다는 점이 중요했다.
또한 제조/품질관리 환경에서 자주 발생하는 문제인 불균형 데이터(정상 99%, 이상 1%)에서는 Accuracy 하나만으로 모델을 평가하면 의미가 왜곡된다는 점을 강조했다. 그래서 Precision, Recall, F1-score, ROC-AUC 같은 지표를 함께 봐야 실제 성능을 판단할 수 있었다.
해결 방법으로는 언더샘플링, 오버샘플링, SMOTE 같은 데이터 재구성 방법과 함께 Isolation Forest, LOF, Autoencoder 같은 이상치 탐지 알고리즘이 소개됐다.
이후에는 모델 평가(Confusion Matrix 기반 지표 해석), 운영 단계에서의 컨셉트 드리프트 대응, 결측치/노이즈 처리 같은 데이터 품질 관리, 그리고 AutoML과 XAI까지 이어지면서 “모델을 만드는 것보다 운영하는 과정이 더 중요하다”는 흐름으로 정리됐다.

 


가장 헷갈렸던 부분은 평가 지표의 의미를 상황에 맞게 해석하는 부분이었다. 특히 Precision과 Recall은 서로 trade-off 관계인데, 제조 불량 탐지에서는 어떤 지표를 더 중요하게 봐야 하는지 상황별 판단이 필요해서 단순 암기가 아니라 맥락 이해가 요구됐다.
또 Isolation Forest, LOF, Autoencoder 같은 이상치 탐지 모델들이 각각 “어떤 데이터 구조에서 강한지”를 직관적으로 연결하는 것이 쉽지 않았다. 단순히 알고리즘 이름과 정의만 보면 비슷하게 느껴져서 실제 적용 상황과 연결하는 데 시간이 걸렸다.
컨셉트 드리프트처럼 모델 성능이 시간이 지나면서 왜 떨어지는지에 대한 개념도 처음에는 추상적으로 느껴졌다.


머신러닝은 모델 자체보다 “데이터 상태와 운영 환경”이 성능을 결정한다는 점이 더 중요하게 느껴졌다. 특히 품질관리 관점에서는 정답률 높은 모델보다 “놓치지 않는 모델”이나 “이상 징후를 빠르게 잡는 구조”가 더 현실적이라는 생각이 들었다.
또 AutoML이나 XAI 같은 도구는 모델링을 자동화해주지만, 결국 결과를 해석하고 의사결정으로 연결하는 부분은 사람이 해야 한다는 점이 명확해졌다.
전체적으로 머신러닝을 하나의 모델링 작업이 아니라, 데이터 수집부터 배포·모니터링·재학습까지 이어지는 “운영 시스템”으로 봐야 한다는 관점이 잡힌 세션이었다.