
오늘은 새로운 팀원들과 팀을 편성하여 데이터 분석 심화 주차를 시작했습니당
저희 조 이름은 오벤져스! 기념으로 캐릭터 같이 꾸미면서 화기애애하게 시작하여쑴ㅎ
제 닥터스트레인지 대박이지 않습니까? 완전 똑같애 ㅋㅋㅋㅋㅋㅋㅋ

그리고 새로운 내용도 배우게 되었는데요 익숙한듯 먼 통계학,,,,,,
데이터 분석에서 가장 기본이 되는 통계 개념들을 학습하는 시간입니당 데이터를 통해서 객관적인 근거를 만들고 의사결정을 돕는 것이 바로 통계의 역할...
1. 데이터의 종류
크게 두가지로 나누어서,
수치형
- 연속형: 온도, 압력, 키, 몸무게
- 이산형: 불량품 개수, 생산 횟수
범주형
- 순서형: 품질 등급, 위험도 등급
- 명목형: 설비 ID, 제품 종류
데이터는 각 이름을 아는 것이 아니라 어떤 것들이 어디에 해당하는지, 즉 온도 데이터는 연속형 데이터다 라고 말할 수 있을 정도로 이해하는 것이 중요하다고 해요 물론 당연한 말이긴 해요
2. 도수와 히스토그램
도수, 상대도수, 누적도수, 계급 등 각 의미를 알고 있으면 될 듯!
전 주차에서도 많이 다뤘던 히스토그램은 데이터가 어떤 구간에 집중되어 있는지, 분포가 치우쳐있는지 등을 직관적으로 확인할 수 있는 도구라고합니다.
3. 대표값 (평균, 중앙값, 최빈값)
데이터를 대표하는 값으로 평균, 중앙값, 최빈값이 있습니다.ㅇ
- 평균(mean): 전체 데이터의 평균값 (이상치에 영향을 많이 받음)
- 중앙값(median): 데이터를 정렬했을 때 가운데 값 (이상치에 영향을 받지 않음)
- 최빈값(mode): 가장 많이 등장하는 값 (2개 이상 존재 가능)
특히 평균은 이상치의 영향을 크게 받기 때문에 항상 신뢰할 수 있는 것은 아니라고 해여!

4. 산포도와 데이터의 퍼짐 정도
평균만으로 데이터의 특성을 ㅁ모두 설명할 수 없습ㄴㅣ다. 왜?
같은 평균을 가진 데이터이더라도 퍼져 있는 정도는 다를 수 있기 때문이지여

고등학교, 대학교 때 통계 열심히 배웠던 것 같은데 오랜만에 보니 처음 보는 것 같은 이 기분 뭘까요..,....
그리고 사분위수(Q1, Q2, Q3)와 IQR(사분위 범위)을 이용해 이상치를 탐지하는 방법도 배웠어요

데이터를 4등분했을 때 각각 25%, 50%, 75% 위치에 해당하는 값들로 이 친구들은 익숙하네용
5. 왜도와 첨도
데이터 분포의 형태를 파악하기 위한 지표도 학습했습니당
왜도(Skewness)
분포가 어느 방향으로 치우쳐 있는지 나타낸다.
- 왜도 > 0 : 오른쪽 꼬리가 김
- 왜도 = 0 : 대칭 분포
- 왜도 < 0 : 왼쪽 꼬리가 김
첨도(Kurtosis)
분포가 얼마나 뾰족한지를 나타낸다.
- 첨도 > 0 : 정규분포보다 뾰족함
- 첨도 = 0 : 정규분포와 유사
- 첨도 < 0 : 정규분포보다 평평함

이전 팀 프로젝트를 진행하며 질리도록 봤던 왜도와 첨도,,,,,,,, ㅎㅎ,,,,,,
오늘 학습한 내용은 데이터 분석을 진행할 때 계속 활용될 기본 개념들로 익숙한 친구들이 대부분이어서 세션 따라가는게 어렵지는 않았지만 정확하게 머리속에 넣어놓아야겠다는 생각을 했습니다@!
이전 프로젝트에는 통계학 개념을 적극적으로 사용하기 어려웠으니 이번에는 잘 공부해서 쉽게 잘! 사용하는 것을 목표로 하겠어용