오전부터 바쁘게 라이브 세션 수강하고 통계학 강의도 듣고,,, 점점 바빠지는 붙캠의 하루다
통계학 녹화 강의에서는!
데이터 분석의 기초라고 할 수 있는 통계 개념을 학습했다. 지금까지는 데이터를 불러오고 전처리하는 과정에 집중했다면, 오늘은 데이터를 어떻게 이해하고 해석하는지에 대한 방법을 배웠다.
특히 기술통계와 추론통계의 차이, 그리고 데이터의 분포와 변수 간 관계를 확인하는 여러 분석 방법들을 정리할 수 있었다.
처음에는 기술통계와 추론통계 둘 다 데이터를 분석하는 방법이라 비슷하게 느껴졌는데, 핵심 목적이 다르다는 점을 이해하게 됐다.
기술통계
기술통계는 데이터를 요약하고 설명하는 방법이다.
예를 들어 처음 만난 사람을 볼 때 외모, 나이, 직업, MBTI 같은 정보로 그 사람을 대략적으로 파악하는 것과 비슷하다.
데이터에서도 평균, 중앙값, 분산, 표준편차 등을 이용해 전체 데이터를 대표하는 특징을 확인한다.
오늘 다시 정리한 개념은 다음과 같다.
- 평균 : 데이터의 대표값
- 중앙값 : 데이터를 정렬했을 때 가운데 위치한 값
- 분산 : 데이터가 평균으로부터 얼마나 퍼져 있는지
- 표준편차 : 분산의 제곱근으로, 실제 데이터 단위로 변동성을 표현
특히 분산과 표준편차는 자주 헷갈렸는데, 둘 다 데이터의 흩어진 정도를 나타낸다는 점은 같지만 표준편차가 실제 데이터와 같은 단위를 사용하기 때문에 해석이 더 쉽다는 점을 알게 됐다.
추론통계
추론통계는 일부 데이터를 가지고 전체를 추정하는 방법이다.
예를 들어 한 사람의 인생 전체를 알 수는 없지만 대화를 하면서 얻은 정보로 그 사람이 어떤 사람인지 추측하는 것과 비슷하다.
대표적인 개념으로는
- 신뢰구간
- 가설검정
이 있다.
특히 가설검정에서 등장하는 귀무가설(H0)과 대립가설(H1)은 앞으로 데이터 분석 프로젝트를 진행하면서 자주 보게 될 것 같다.
오늘은 개념 위주로 학습했지만 나중에는 실제 데이터를 이용해 p-value를 해석하는 단계까지 연결될 것 같다.
데이터를 탐색하는 다양한 방법
통계를 단순히 계산하는 것뿐만 아니라 데이터를 여러 관점에서 바라보는 방법도 배웠다.
1. 위치추정
데이터의 중심을 확인하는 방법이다.
대표적으로 평균과 중앙값을 사용한다.
np.mean(data)
np.median(data)
2. 변이추정
데이터가 얼마나 퍼져 있는지를 확인하는 방법이다.
주요 지표는 분산, 표준편차, 범위(Range) 이다.
범위는 단순히 최대값 - 최소값 으로 계산된다.
계산은 쉽지만 중간 데이터의 분포는 반영하지 못한다는 한계도 있다.
3. 데이터 분포 확인
데이터 분석을 하다 보면 숫자만 보는 것보다 시각화가 훨씬 이해하기 쉽다.
오늘은 대표적으로
- 히스토그램
- 박스플롯(Box Plot)
을 사용했다.
히스토그램은 데이터가 어떤 구간에 많이 몰려 있는지 확인할 수 있고, 박스플롯은 중앙값, 사분위수, 이상치 등을 한 번에 파악할 수 있다.
특히 박스플롯은 앞으로 데이터 전처리 과정에서 이상치를 찾을 때 자주 사용할 것 같다.
4. 범주형 데이터 탐색
만족/불만족처럼 값의 종류가 정해져 있는 데이터를 분석하는 방법도 배웠다.
이때는 최빈값과 빈도수를 확인하고, 주로 막대그래프나 파이차트를 사용한다.
실제 설문조사 데이터 분석에서도 많이 활용될 것 같다.
5. 상관관계 분석
오늘 배운 내용 중 가장 흥미로웠던 부분이다.
상관계수는 두 변수의 관계를 숫자로 표현한다.
- 1에 가까움 → 강한 양의 상관관계
- -1에 가까움 → 강한 음의 상관관계
- 0에 가까움 → 상관관계 거의 없음
예를 들어 공부 시간이 늘어날수록 시험 점수가 올라간다면 양의 상관관계를 가진다.
np.corrcoef(x, y)
이렇게 한 줄로 계산할 수 있다는 점도 인상적이었다!! 매우 간단.
상관관계와 인과관계는 다르다
오늘 학습하면서 가장 중요하게 느낀 부분이다.
상관관계가 있다고 해서 반드시 원인과 결과 관계인 것은 아니다.
예시로 아이스크림 판매량과 익사 사고 수는 함께 증가하는 경향이 있지만,
아이스크림이 익사 사고를 발생시키는 것은 아니다.
실제로는 여름이라는 공통 원인이 존재한다.
이 부분은 앞으로 프로젝트를 진행하면서도 꼭 기억해야 할 것 같다.
상관계수가 높다고 해서 함부로 "영향을 준다"라고 결론을 내리면 안 된다.
오늘의 느낀 점
오늘은 단순히 통계 용어를 외우는 시간이 아니라 데이터를 바라보는 기본적인 시각을 배우는 시간이었다.
특히 지금 진행했던 흡연 데이터 프로젝트를 떠올려보니, 그동안 사용했던 평균, 상관계수, 분포 그래프들이 모두 오늘 배운 개념들 위에서 만들어졌다는 것을 알 수 있었다.
또한 상관관계와 인과관계의 차이는 앞으로 데이터 분석을 하면서 계속 주의해야 할 부분이라고 느꼈다. 데이터에서 어떤 관계가 발견되더라도 그것이 곧 원인과 결과를 의미하는 것은 아니기 때문이다.
오늘 배운 통계 개념들은 앞으로 EDA와 가설 검정, 머신러닝 모델 해석까지 이어질 기초 체력 같은 내용이라 생각한다. 지금은 개념 위주로 이해하는 단계지만, 실제 데이터 분석 프로젝트에 적용하면서 더 익숙해져야겠다.