카테고리 없음

[내일배움캠프] QAQC_6기 통계학 킵 고잉,,

blog63677 2026. 6. 19. 19:52

오늘은 통계학의 가장 기본이 되는 개념인 모집단과 표본, 표본오차와 신뢰구간, 정규분포에 대해 학습했다.

처음에는 용어들이 비슷하게 느껴졌지만, 실제 데이터를 모두 조사하기 어려운 현실적인 문제를 해결하기 위해 통계가 어떤 방식으로 활용되는지 이해할 수 있었다.

(그리고 사실 고등학생 때랑 대학생 때 배웠긴 했음 ㅎㅎ..)

 

1. 모집단(Population)과 표본(Sample)

통계 분석의 시작은 모집단과 표본을 구분하는 것이다.

  • 모집단 : 조사하고 싶은 전체 대상
  • 표본 : 모집단 중 일부를 추출한 데이터

예를 들어 대한민국 성인의 평균 키를 알고 싶다고 가정해보자.

대한민국 성인 모두를 조사하는 것은 시간과 비용이 너무 많이 들기 때문에 일부 사람들을 추출하여 조사한다.

이때

  • 대한민국 성인 전체 = 모집단
  • 조사에 참여한 사람들 = 표본

이 된다.

즉, 통계는 표본을 통해 모집단의 특성을 추정하는 학문이라고 볼 수 있다.


2. 표본오차(Sampling Error)

표본은 모집단의 일부이기 때문에 항상 모집단과 완전히 같을 수는 없다.

예를 들어 모집단의 실제 평균 키가 170cm라고 하더라도,

  • 어떤 표본에서는 171cm
  • 다른 표본에서는 168cm

처럼 결과가 달라질 수 있다.

이처럼 표본 통계량과 모집단 실제 값 사이에 발생하는 차이를 표본오차라고 한다.

오늘 배운 내용을 통해 표본을 아무리 잘 뽑더라도 어느 정도 오차는 발생할 수밖에 없다는 점을 이해했다.

중요한 것은 오차를 완전히 없애는 것이 아니라, 오차를 최소화할 수 있도록 대표성 있는 표본을 추출하는 것이다.


3. 신뢰구간(Confidence Interval)

표본을 통해 모집단의 평균을 추정할 때 단일 값만 제시하는 것보다 범위로 제시하는 것이 더 신뢰성이 높다.

예를 들어 표본 조사 결과 평균 키가 170cm라고 나왔다고 해서 실제 모집단 평균이 정확히 170cm라고 단정할 수는 없다.

그래서 통계에서는 다음과 같이 표현한다.

모집단 평균은 168cm ~ 172cm 사이에 있을 것으로 예상된다.

이 범위를 신뢰구간이라고 한다.

특히 95% 신뢰구간은 동일한 방식으로 표본 추출을 여러 번 반복했을 때, 계산된 구간의 약 95%가 실제 모집단 평균을 포함한다는 의미이다.

처음에는 "95% 확률로 포함된다"라고 이해했는데, 정확히는 반복 추출 관점에서 해석해야 한다는 점이 인상적이었다.


4. 정규분포(Normal Distribution)

정규분포는 통계에서 가장 많이 사용되는 확률분포 중 하나이다.

그래프 형태가 종(bell) 모양처럼 생겨서 흔히 종 모양 곡선이라고 부른다.

 
 
 

정규분포의 특징은 다음과 같다.

  • 평균을 중심으로 좌우 대칭이다.
  • 평균, 중앙값, 최빈값이 모두 같다.
  • 평균 주변에 데이터가 가장 많이 몰려 있다.
  • 평균에서 멀어질수록 데이터 수가 감소한다.

예를 들어 시험 점수, 키, 몸무게 등 많은 자연 현상이 정규분포와 비슷한 형태를 보인다.

또한 정규분포에서는 유명한 68-95-99.7 법칙이 존재한다.

  • 평균 ± 1표준편차 → 약 68%
  • 평균 ± 2표준편차 → 약 95%
  • 평균 ± 3표준편차 → 약 99.7%

즉, 대부분의 데이터는 평균 주변에 모여 있다는 의미이다.


오늘의 느낀 점

오늘 배운 내용들은 단순한 통계 용어가 아니라 데이터 분석의 기초가 되는 개념들이었다.

특히 모집단 전체를 조사하는 것이 현실적으로 어렵기 때문에 표본을 활용하고, 그 과정에서 발생하는 표본오차를 고려하여 신뢰구간으로 결과를 해석한다는 흐름이 연결되면서 이해가 쉬워졌다.

또한 정규분포는 앞으로 배우게 될 가설검정, 상관분석, 회귀분석 등 다양한 통계 기법의 기반이 되는 개념이기 때문에 개념을 확실히 이해하고 넘어가는 것이 중요하다고 느꼈다.


한 줄 정리

통계는 모집단을 직접 조사하기 어려운 상황에서 표본을 활용해 모집단을 추정하는 학문이며, 그 과정에서 발생하는 불확실성을 표본오차와 신뢰구간으로 설명하고, 데이터의 분포는 정규분포를 통해 이해할 수 있다.