[내일배움캠프] QAQC_6기 새로운 조 오벤져스

카테고리 없음

[내일배움캠프] QAQC_6기 새로운 조 오벤져스

blog63677 2026. 6. 17. 20:09

오늘은 새로운 팀원들과 팀을 편성하여 데이터 분석 심화 주차를 시작했습니당

저희 조 이름은 오벤져스! 기념으로 캐릭터 같이 꾸미면서 화기애애하게 시작하여쑴ㅎ

제 닥터스트레인지 대박이지 않습니까? 완전 똑같애 ㅋㅋㅋㅋㅋㅋㅋ

그리고 새로운 내용도 배우게 되었는데요 익숙한듯 먼 통계학,,,,,,

데이터 분석에서 가장 기본이 되는 통계 개념들을 학습하는 시간입니당 데이터를 통해서 객관적인 근거를 만들고 의사결정을 돕는 것이 바로 통계의 역할...

1. 데이터의 종류

크게 두가지로 나누어서,

수치형

- 연속형: 온도, 압력, 키, 몸무게

- 이산형: 불량품 개수, 생산 횟수

범주형

- 순서형: 품질 등급, 위험도 등급

- 명목형: 설비 ID, 제품 종류

데이터는 각 이름을 아는 것이 아니라 어떤 것들이 어디에 해당하는지, 즉 온도 데이터는 연속형 데이터다 라고 말할 수 있을 정도로 이해하는 것이 중요하다고 해요 물론 당연한 말이긴 해요

2. 도수와 히스토그램

도수, 상대도수, 누적도수, 계급 등 각 의미를 알고 있으면 될 듯!

전 주차에서도 많이 다뤘던 히스토그램은 데이터가 어떤 구간에 집중되어 있는지, 분포가 치우쳐있는지 등을 직관적으로 확인할 수 있는 도구라고합니다.

3. 대표값 (평균, 중앙값, 최빈값)

데이터를 대표하는 값으로 평균, 중앙값, 최빈값이 있습니다.ㅇ

평균(mean): 전체 데이터의 평균값 (이상치에 영향을 많이 받음)
중앙값(median): 데이터를 정렬했을 때 가운데 값 (이상치에 영향을 받지 않음)
최빈값(mode): 가장 많이 등장하는 값 (2개 이상 존재 가능)

특히 평균은 이상치의 영향을 크게 받기 때문에 항상 신뢰할 수 있는 것은 아니라고 해여!

4. 산포도와 데이터의 퍼짐 정도

평균만으로 데이터의 특성을 ㅁ모두 설명할 수 없습ㄴㅣ다. 왜?

같은 평균을 가진 데이터이더라도 퍼져 있는 정도는 다를 수 있기 때문이지여

고등학교, 대학교 때 통계 열심히 배웠던 것 같은데 오랜만에 보니 처음 보는 것 같은 이 기분 뭘까요..,....

그리고 사분위수(Q1, Q2, Q3)와 IQR(사분위 범위)을 이용해 이상치를 탐지하는 방법도 배웠어요

데이터를 4등분했을 때 각각 25%, 50%, 75% 위치에 해당하는 값들로 이 친구들은 익숙하네용

5. 왜도와 첨도

데이터 분포의 형태를 파악하기 위한 지표도 학습했습니당

왜도(Skewness)

분포가 어느 방향으로 치우쳐 있는지 나타낸다.

왜도 > 0 : 오른쪽 꼬리가 김
왜도 = 0 : 대칭 분포
왜도 < 0 : 왼쪽 꼬리가 김

첨도(Kurtosis)

분포가 얼마나 뾰족한지를 나타낸다.

첨도 > 0 : 정규분포보다 뾰족함
첨도 = 0 : 정규분포와 유사
첨도 < 0 : 정규분포보다 평평함

이전 팀 프로젝트를 진행하며 질리도록 봤던 왜도와 첨도,,,,,,,, ㅎㅎ,,,,,,

오늘 학습한 내용은 데이터 분석을 진행할 때 계속 활용될 기본 개념들로 익숙한 친구들이 대부분이어서 세션 따라가는게 어렵지는 않았지만 정확하게 머리속에 넣어놓아야겠다는 생각을 했습니다@!

이전 프로젝트에는 통계학 개념을 적극적으로 사용하기 어려웠으니 이번에는 잘 공부해서 쉽게 잘! 사용하는 것을 목표로 하겠어용

현재글[내일배움캠프] QAQC_6기 새로운 조 오벤져스

blog63677 님의 블로그

blog63677 님의 블로그 입니다.

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

blog63677 님의 블로그

[내일배움캠프] QAQC_6기 새로운 조 오벤져스

'카테고리 없음'의 다른글

티스토리툴바