카테고리 없음

[내일배움캠프] QAQC_6기 새로운 조 오벤져스

blog63677 2026. 6. 17. 20:09

오늘은 새로운 팀원들과 팀을 편성하여 데이터 분석 심화 주차를 시작했습니당 

저희 조 이름은 오벤져스! 기념으로 캐릭터 같이 꾸미면서 화기애애하게 시작하여쑴ㅎ

제 닥터스트레인지 대박이지 않습니까? 완전 똑같애 ㅋㅋㅋㅋㅋㅋㅋ

 

 

 

그리고 새로운 내용도 배우게 되었는데요 익숙한듯 먼 통계학,,,,,,

 

데이터 분석에서 가장 기본이 되는 통계 개념들을 학습하는 시간입니당 데이터를 통해서 객관적인 근거를 만들고 의사결정을 돕는 것이 바로 통계의 역할...

 

1. 데이터의 종류

 

크게 두가지로 나누어서,

 

수치형

 - 연속형: 온도, 압력, 키, 몸무게

 - 이산형: 불량품 개수, 생산 횟수

 

범주형

 - 순서형: 품질 등급, 위험도 등급

 - 명목형: 설비 ID, 제품 종류

 

데이터는 각 이름을 아는 것이 아니라 어떤 것들이 어디에 해당하는지, 즉 온도 데이터는 연속형 데이터다 라고 말할 수 있을 정도로 이해하는 것이 중요하다고 해요 물론 당연한 말이긴 해요 

 

2. 도수와 히스토그램

 

도수, 상대도수, 누적도수, 계급 등 각 의미를 알고 있으면 될 듯!

 

전 주차에서도 많이 다뤘던 히스토그램은 데이터가 어떤 구간에 집중되어 있는지, 분포가 치우쳐있는지 등을 직관적으로 확인할 수 있는 도구라고합니다.

 

3. 대표값 (평균, 중앙값, 최빈값)

 

데이터를 대표하는 값으로 평균, 중앙값, 최빈값이 있습니다.ㅇ

  • 평균(mean): 전체 데이터의 평균값 (이상치에 영향을 많이 받음)
  • 중앙값(median): 데이터를 정렬했을 때 가운데 값 (이상치에 영향을 받지 않음)
  • 최빈값(mode): 가장 많이 등장하는 값 (2개 이상 존재 가능)

특히 평균은 이상치의 영향을 크게 받기 때문에 항상 신뢰할 수 있는 것은 아니라고 해여!

 

 

4. 산포도와 데이터의 퍼짐 정도

 

평균만으로 데이터의 특성을 ㅁ모두 설명할 수 없습ㄴㅣ다.  왜?

같은 평균을 가진 데이터이더라도 퍼져 있는 정도는 다를 수 있기 때문이지여 

 

고등학교, 대학교 때 통계 열심히 배웠던 것 같은데 오랜만에 보니 처음 보는 것 같은 이 기분 뭘까요..,....

 

그리고 사분위수(Q1, Q2, Q3)와 IQR(사분위 범위)을 이용해 이상치를 탐지하는 방법도 배웠어요

 

데이터를 4등분했을 때 각각 25%, 50%, 75% 위치에 해당하는 값들로 이 친구들은 익숙하네용

 

5. 왜도와 첨도

 

데이터 분포의 형태를 파악하기 위한 지표도 학습했습니당

 

왜도(Skewness)

분포가 어느 방향으로 치우쳐 있는지 나타낸다.

  • 왜도 > 0 : 오른쪽 꼬리가 김
  • 왜도 = 0 : 대칭 분포
  • 왜도 < 0 : 왼쪽 꼬리가 김

첨도(Kurtosis)

분포가 얼마나 뾰족한지를 나타낸다.

  • 첨도 > 0 : 정규분포보다 뾰족함
  • 첨도 = 0 : 정규분포와 유사
  • 첨도 < 0 : 정규분포보다 평평함

 

 

이전 팀 프로젝트를 진행하며 질리도록 봤던 왜도와 첨도,,,,,,,, ㅎㅎ,,,,,,

 

오늘 학습한 내용은 데이터 분석을 진행할 때 계속 활용될 기본 개념들로 익숙한 친구들이 대부분이어서 세션 따라가는게 어렵지는 않았지만 정확하게 머리속에 넣어놓아야겠다는 생각을 했습니다@!

 

이전 프로젝트에는 통계학 개념을 적극적으로 사용하기 어려웠으니 이번에는 잘 공부해서 쉽게 잘! 사용하는 것을 목표로 하겠어용