카테고리 없음

[내일배움캠프] 통계학

blog63677 2026. 6. 25. 20:57

통계학 심화: 가설검정부터 회귀분석까지

오늘 강의에서는 A/B 테스트와 가설검정의 기본 흐름부터 시작해서, t검정 / 다중검정 / 카이제곱검정, 그리고 **회귀분석(단순선형회귀, 다중선형회귀, 다항회귀, 스플라인회귀)**까지 꽤 넓은 범위를 한 번에 다뤘다.
처음에는 각각이 별개의 개념처럼 보였는데, 정리해보니 결국은 “데이터를 보고 차이가 있는지 판단하거나, 관계를 설명하고 예측하는 방법들”이라는 큰 흐름 안에 연결되어 있었다.

특히 A/B 테스트는 단순히 두 버전을 비교하는 실험이 아니라, “관찰된 차이가 우연인지 실제 효과인지 검정하는 과정”이라는 점이 핵심이었다. 이 과정에서 자연스럽게 귀무가설과 대립가설, 유의수준, p-value, 제1종 오류와 제2종 오류 같은 개념이 함께 등장했다.
예를 들어 실제로 차이가 없는데 차이가 있다고 잘못 판단하면 제1종 오류, 반대로 실제 차이가 있는데도 없다고 판단하면 제2종 오류가 된다. 가설검정은 단순 계산보다도, 이런 오류 가능성을 감안하면서 결론을 내리는 과정이라는 점이 인상적이었다.

검정 방법도 데이터 형태에 따라 달라진다는 점을 배웠다. t검정은 주로 두 집단 평균 차이를 비교할 때 사용하고, 카이제곱검정은 범주형 데이터에서 변수 간 관련성이나 분포 차이를 볼 때 사용한다. 또 한 번의 검정이 아니라 여러 가설을 동시에 검정하면 우연히 유의한 결과가 나올 가능성이 커지기 때문에, 다중검정 문제와 이를 보정해야 하는 이유도 함께 배웠다.
이 부분에서 “검정을 많이 하면 좋은 것 아닌가?”라고 막연히 생각했는데, 오히려 검정 횟수가 늘수록 잘못된 결론을 낼 위험도 커진다는 점이 중요하게 느껴졌다.

회귀분석 파트에서는 독립변수와 종속변수의 관계를 수식으로 표현하는 방법을 배웠다. 단순선형회귀는 하나의 독립변수로 결과를 설명하는 가장 기본적인 형태이고, 다중선형회귀는 여러 변수의 영향을 함께 반영한다. 여기에 범주형 변수가 들어오면 숫자형 변수처럼 그대로 넣는 것이 아니라 더미 변수 형태로 변환해 모델에 반영해야 한다는 점도 알게 됐다.
또 관계가 직선으로 설명되지 않을 때는 다항회귀처럼 곡선 형태를 만들 수도 있고, 구간별로 더 유연하게 관계를 잡아주는 스플라인 회귀도 사용할 수 있다는 점에서, 회귀모델도 생각보다 훨씬 다양한 방식으로 확장된다는 걸 느꼈다.

어려웠던 점은 크게 두 가지였다.
첫 번째는 검정 방법들의 사용 기준을 구분하는 것이었다. 평균 비교면 t검정, 범주형이면 카이제곱검정이라는 큰 틀은 이해되지만, 실제 문제를 보면 어떤 검정을 써야 하는지 바로 떠오르지는 않았다.
두 번째는 회귀분석 종류가 많아질수록 각각의 차이를 머릿속에서 정리하는 것이었다. 단순선형회귀, 다중선형회귀까지는 비교적 직관적이었지만, 다항회귀와 스플라인 회귀는 “둘 다 곡선을 그리는 건가?” 정도로만 느껴져서 아직 완전히 구분되지는 않았다. 이 부분은 직접 그래프를 보면서 복습해야 더 확실히 잡힐 것 같다.

오늘 강의를 들으면서 느낀 건, 통계는 단순히 공식을 외우는 과목이 아니라 “이 데이터에서 어떤 질문을 하고, 그 질문에 맞는 도구를 고르는 과정”에 가깝다는 점이다. 같은 데이터라도 평균 차이를 보고 싶은지, 범주 간 관련성을 보고 싶은지, 특정 변수들이 결과에 어떤 영향을 주는지에 따라 접근 방식이 완전히 달라진다.
그래서 앞으로는 개별 개념을 따로 외우기보다, 이 기법이 어떤 상황에서 필요한지, 입력 데이터가 수치형인지 범주형인지, 내가 알고 싶은 게 차이인지 관계인지 예측인지를 먼저 구분하면서 정리해야겠다고 느꼈다. 오늘 배운 내용은 양이 많았지만, 통계학이 실제 데이터 분석에서 어떻게 쓰이는지 큰 그림을 보는 데 도움이 된 시간이었다.