📊 확률과 통계 완벽 정리
통계학은 17세기 런던 역병 사망자 기록에서 시작되었습니다. 존 그런트가 사망 기록을 분석해 패턴을 찾아낸 것이 인구 통계학의 시초이며, 이후 보험·의학·국가 행정의 필수 도구로 성장했습니다.
- 평균·중앙값·최빈값의 차이와 각각의 적절한 사용 상황을 설명할 수 있다
- 분산과 표준편차를 계산하고 데이터의 퍼짐 정도를 비교할 수 있다
- 덧셈정리와 곱셈정리를 이용해 복합 사건의 확률을 구할 수 있다
- 정규분포의 표준화 과정을 통해 확률표에서 확률을 읽을 수 있다
우리는 매일 불확실한 정보를 판단합니다 — 날씨 예보, 약의 효과, 선거 결과 예측. 통계는 데이터에서 패턴을 발견하고, 확률은 미래의 불확실성을 수치화하는 도구입니다. AI와 머신러닝의 핵심이 통계학이며, 의학 연구·금융 리스크 분석·여론 조사 모두 이 단원의 개념을 직접 사용합니다. 정규분포 하나만 이해해도 세상의 수많은 현상을 새로운 시각으로 볼 수 있습니다.
5명의 키를 모두 똑같이 맞추려면? 모두의 키를 합쳐서 5로 나누면 된다 — 이게 평균이다. 분산은 "키가 평균에서 얼마나 떨어져 있나"를 수치화한 것. 키가 모두 170cm면 분산=0, 들쑥날쑥하면 분산이 커진다.
- 평균: 전체 합 ÷ 개수. 중앙값: 정렬 후 가운데. 최빈값: 가장 많은 값
- 분산 \(\sigma^2\): 편차 제곱의 평균. 표준편차 \(\sigma\): \(\sqrt{\text{분산}}\)
- 확률 기본: \(0 \le P(A) \le 1\), 전사건 \(P(U)=1\)
- 덧셈정리: \(P(A \cup B)=P(A)+P(B)-P(A \cap B)\)
- 정규분포: 평균 μ에서 좌우 대칭 종모양. \(Z = \frac{X-\mu}{\sigma}\)로 표준화
- 출제 빈도: 매년 3~5문항 (확률과 통계 선택 시 집중 출제)
- 핵심 유형: 조건부 확률 계산, 이항분포→정규분포 근사, 모비율 신뢰구간
- 고난도 포인트: "독립과 배반의 차이" — 독립은 확률 곱, 배반은 교집합=공집합. 혼동 시 오답 다수
- 실수 주의: 분산 계산 시 편차의 합이 0이 되는 성질을 이용한 함정 문항
평균이 항상 적절한 대표값인가요?
아닙니다. 연봉 9명이 3000만 원, 1명이 1억이면 평균은 3700만 원 — 90%의 현실과 거리가 있습니다. 이럴 때는 중앙값이 더 대표적입니다. 평균은 극단값에 민감하므로 분포를 먼저 확인해야 합니다.
1. 대표값 (Measures of Central Tendency) [12수I04-01]
자료 전체의 특징을 하나의 값으로 나타내는 값을 대표값이라 합니다.
평균 (Mean)
중앙값 (Median)
자료를 크기 순서로 배열했을 때 가운데 위치하는 값입니다.
- \(n\)이 홀수: \(\dfrac{n+1}{2}\)번째 값
- \(n\)이 짝수: \(\dfrac{n}{2}\)번째와 \(\dfrac{n}{2}+1\)번째 값의 평균
3번째 값 = 4
최빈값 (Mode)
자료 중 가장 많이 나타나는 값입니다. 최빈값은 여러 개일 수도 있습니다.
2. 산포도 (Measures of Dispersion) [12수I04-02]
자료가 평균으로부터 얼마나 퍼져 있는지를 나타내는 값입니다.
편차 (Deviation)
편차의 합은 항상 0입니다: \(\displaystyle\sum_{i=1}^{n}(x_i - \bar{x}) = 0\)
분산 (Variance)
표준편차 (Standard Deviation)
편차: −2, 0, 0, 2, 0
편차의 제곱: 4, 0, 0, 4, 0
분산: \(\sigma^2 = \dfrac{4+0+0+4+0}{5} = \dfrac{8}{5} = 1.6\)
표준편차: \(\sigma = \sqrt{1.6} \approx 1.265\)
3. 확률의 기초 [12수I05-01]
확률(probability)은 어떤 사건이 일어날 가능성을 수로 나타낸 것입니다.
- \(0 \leq P(A) \leq 1\)
- \(P(\text{전체 표본공간}) = 1\)
- \(P(\varnothing) = 0\) (불가능한 사건)
홀수인 경우의 수: 3 (1, 3, 5)
\(P(\text{홀수}) = \dfrac{3}{6} = \dfrac{1}{2}\)
여사건 (Complementary Event)
4. 확률의 덧셈정리 [12수I05-02]
두 사건 A와 B가 동시에 일어날 수 없을 때 (\(A \cap B = \varnothing\)):
\[ P(A \cup B) = P(A) + P(B) \]B = {2의 배수} = {2, 4, 6} → P(B) = 3/6
A ∩ B = {6} → P(A ∩ B) = 1/6
\(P(A \cup B) = \dfrac{2}{6} + \dfrac{3}{6} - \dfrac{1}{6} = \dfrac{4}{6} = \dfrac{2}{3}\)
5. 조건부 확률과 곱셈정리 [12수I05-03]
조건부 확률
사건 B가 일어났다는 조건 하에서 사건 A가 일어날 확률입니다.
곱셈정리
독립사건
두 사건 A, B가 독립이면 (서로 영향을 주지 않으면):
\[ P(A \cap B) = P(A) \cdot P(B) \] \[ P(A | B) = P(A), \quad P(B | A) = P(B) \]\(P(\text{앞앞}) = P(\text{앞}) \times P(\text{앞}) = \dfrac{1}{2} \times \dfrac{1}{2} = \dfrac{1}{4}\)
6. 이항분포 (Binomial Distribution) [12수I05-04]
같은 조건 아래 독립적으로 반복되는 실험에서, 각 시행의 성공 확률이 \(p\)일 때 \(n\)번 시행 중 성공 횟수 X의 분포입니다.
평균: \(E(X) = 10 \times \dfrac{1}{2} = 5\)
분산: \(V(X) = 10 \times \dfrac{1}{2} \times \dfrac{1}{2} = \dfrac{10}{4} = 2.5\)
표준편차: \(\sigma = \sqrt{2.5} \approx 1.58\)
7. 정규분포 (Normal Distribution) [12수I05-05]
평균 \(\mu\), 표준편차 \(\sigma\)를 가지는 연속 확률 분포입니다. 자연과 사회의 많은 현상이 정규분포를 따릅니다.
확률밀도함수: \(f(x) = \dfrac{1}{\sqrt{2\pi}\,\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)
- 평균 \(\mu\)에 대해 좌우 대칭인 종(bell) 모양 곡선
- 평균 = 중앙값 = 최빈값
- \(\sigma\)가 작을수록 분포가 좁고 뾰족함
- 전체 넓이 = 1 (총 확률)
표준 정규분포
정규분포를 표준화하면 평균 0, 표준편차 1인 표준 정규분포로 변환됩니다.
- \(P(-1 \leq Z \leq 1) \approx 0.6827\) (약 68.3%)
- \(P(-2 \leq Z \leq 2) \approx 0.9545\) (약 95.4%)
- \(P(-3 \leq Z \leq 3) \approx 0.9973\) (약 99.7%)
편차 합 = (x₁−μ)+(x₂−μ)+… = 0 (항상 0 → 의미 없음!)
해결책 1: 절댓값 → 계산 불편
해결책 2: 제곱해서 더함 → 분산(σ²)
단위를 원래대로 복원: √분산 = 표준편차 σ = √(Σ(xᵢ−μ)²/n)
평균·중앙값·최빈값: 평균=전체 합÷개수, 중앙값=정렬 후 가운데, 최빈값=가장 자주 등장
분산 vs 표준편차: 분산 = (편차)²의 평균 → 표준편차 = √분산 (단위가 원래 데이터와 같아짐)
확률 덧셈법칙: P(A∪B) = P(A) + P(B) − P(A∩B) — 겹치는 부분을 빼야 두 번 세지 않음!
- 평균·분산 계산
- 확률 덧셈법칙
- 조건부 확률
- 정규분포 해석
여사건 확률(1-P)을 놓치거나, 독립사건과 배반사건의 조건을 혼동하는 것이 고빈도 오류입니다.
직접 풀어봐야 기억에 남습니다. 먼저 스스로 풀어보고, 정답을 확인하세요.
8. 연습 문제
Q1. 자료 [6, 8, 5, 9, 7]의 평균, 중앙값, 최빈값을 구하시오.
▶ 정답 확인
Q2. 자료 [3, 5, 7, 5, 5]의 분산과 표준편차를 구하시오.
▶ 정답 확인
분산 = \(\dfrac{8}{5} = 1.6\) 표준편차 = \(\sqrt{1.6} \approx \mathbf{1.26}\)
Q3. \(P(A) = 0.5\), \(P(B) = 0.4\), \(P(A \cap B) = 0.2\)일 때, \(P(A \cup B)\)를 구하시오.
▶ 정답 확인
Q4. A와 B가 독립 사건이고 \(P(A) = 0.6\), \(P(B) = 0.5\)일 때, \(P(A \cap B)\)를 구하시오.
▶ 정답 확인
Q5. 서로 다른 카드 5장 중 2장을 뽑을 때, 특정 카드 A가 뽑힐 확률을 구하시오.
▶ 정답 확인
전체 경우의 수: \(\binom{5}{2} = 10\)
\(P = \dfrac{4}{10} = \mathbf{\dfrac{2}{5}}\)
표본 표준편차와 모 표준편차 혼동 — 표본에서 편차 제곱의 평균을 구할 때 n으로 나누는지 (n−1)로 나누는지를 혼동합니다. 추정 통계에서는 불편추정량 확보를 위해 (n−1)을 사용합니다. 수식의 분모를 반드시 확인하세요.
키·몸무게처럼 연속적인 데이터의 확률은 어떻게 구할까?
이산 확률은 경우의 수로 세지만, 연속 확률분포의 확률은 곡선 아래 넓이다. 이것이 미적분(적분)이 통계와 만나는 지점이다.
미적분으로 이동통계는 현대 데이터 과학의 기초입니다. 평균과 분산을 이해한 지금, 미적분과 결합해 정규분포·확률밀도함수까지 나아갈 준비가 됐습니다.
- 분산 = 편차²의 평균 / 표준편차 = √분산
- 확률의 덧셈: P(A∪B) = P(A)+P(B)−P(A∩B)
- 독립사건: P(A∩B) = P(A)×P(B) — 조건부확률과 혼동 주의
- 평균은 이샹치에 민감, 중앙값은 이샹치에 강건
방금 배운 내용을 오래 기억하려면 간격을 두고 복습하세요.
평균의 함정: 빌 게이츠가 식당에 들어오면 그 식당 손님의 "평균 자산"은 억 단위로 뛰어오릅니다. 이처럼 극단값이 있을 때는 중앙값이 더 정직한 대표값입니다.
1자료 {3, 7, 5, 12, 8, 5, 2}의 평균, 중앙값, 최빈값을 구하세요.
정답 보기
평균: 42/7=6. 정렬: {2,3,5,5,7,8,12}, 중앙값: 5, 최빈값: 5
2자료 {2, 3, 4, 5, 100}에서 평균과 중앙값 중 어느 것이 대표값으로 더 적합한가요?
정답 보기
중앙값(4)이 더 적합. 극단값 100이 평균(22.8)을 크게 왜곡함
3분산과 표준편차의 차이를 설명하고, 왜 표준편차를 더 많이 쓰는지 설명하세요.
정답 보기
분산 = 편차의 제곱 평균, 표준편차 = 분산의 제곱근. 단위가 원래 데이터와 같아서 해석이 직관적
- 의학 연구원: 임상시험 결과 분석 — 평균과 표준편차로 약의 효과를 검증합니다
- 마케터: A/B 테스트 — 두 광고 클릭률 차이가 통계적으로 유의미한지 판단합니다
- 데이터 과학자: 머신러닝 모델 성능 평가에 평균 오차·분산이 쓰입니다
이상치가 있으면 중앙값을, 가장 빈번한 값이 중요하면 최빈값을 씁니다. 표준편차 = 데이터 퍼진 정도.
- 평균의 함정: 극단값(이상값)이 있으면 평균이 '전형적인 값'을 대표하지 못합니다. 소득 분포처럼 왜곡된 데이터엔 중앙값이 적합합니다.
- 상관 ≠ 인과: 두 변수의 상관계수가 높아도 반드시 인과관계가 있는 것은 아닙니다.
- 표본 편향: 표본 추출 방식이 편향되면 아무리 정교한 통계도 모집단을 대표할 수 없습니다.