📊 確率と統計の完全解説
なぜ学ぶの?
統計学は不確かな世界でデータから真実を見つける方法です。医学研究や選挙予測など、日常的な意思決定に欠かせません。
直感的に理解しよう
統計はデータで真実を探す技術です。ただし平均は外れ値の影響を強く受けます。中央値の方が実態をより正確に反映することがよくあります。
よくある誤解
よくある誤解: 平均は常に最良の代表値だ。
真実: 外れ値があると平均は歪みます。データに合った代表値を選んでください。
先に学ぶこと
- 基礎計算(四則演算)の理解
- 分数・割合の理解
1. データの代表値
- 平均値(mean):すべての値の合計をデータの個数で割った値。\(\bar{x} = \dfrac{\sum x_i}{n}\)
- 中央値(median):データを小さい順に並べたときの真ん中の値。偶数個の場合は中央の2つの平均。
- 最頻値(mode):最も多く出現する値。
データ:4, 7, 7, 9, 11, 13, 15
平均値 = \(\dfrac{4+7+7+9+11+13+15}{7} = \dfrac{66}{7} \approx 9.4\)
中央値 = 9(4番目の値)
最頻値 = 7(2回出現)
中央値 = 9(4番目の値)
最頻値 = 7(2回出現)
2. データの散布度 共通テスト
- 範囲(range):最大値 ー 最小値
- 分散(variance):各データと平均値の差の2乗の平均
- 標準偏差(standard deviation):分散の正の平方根。データのばらつきの指標。
\[ s^2 = \frac{\sum(x_i - \bar{x})^2}{n}, \qquad s = \sqrt{s^2} \]
3. 確率の基本 共通テスト
確率は事象の起こりやすさを0以上1以下の数で表したものです。
\[ P(A) = \frac{\text{事象Aが起こる場合の数}}{\text{全事象の場合の数}} \]
確率の性質
- \(0 \leq P(A) \leq 1\)
- 全事象の確率:\(P(\Omega) = 1\)
- 余事象の確率:\(P(\bar{A}) = 1 - P(A)\)
- 和事象:\(P(A \cup B) = P(A) + P(B) - P(A \cap B)\)
- 互いに排反なとき:\(P(A \cup B) = P(A) + P(B)\)
❌ よくある間違い — 独立と排反の混同
同時に起こらない2事象(排反)は独立である
排反事象(\(P(A \cap B)=0\))は実は従属 — Aが起きるとBが起きないことが確定する
独立:\(P(A|B) = P(A)\)。排反:\(P(A|B) = 0\)。2つは正反対の概念です。
例:サイコロを1回投げる
- 偶数が出る確率:\(P = \dfrac{3}{6} = \dfrac{1}{2}\)
- 3以上が出る確率:\(P = \dfrac{4}{6} = \dfrac{2}{3}\)
- 1が出ない確率:\(P = 1 - \dfrac{1}{6} = \dfrac{5}{6}\)
4. 組み合わせと順列
順列(Permutation):順番あり
\[ _nP_r = \frac{n!}{(n-r)!} \]
5人の中から3人を選んで1位・2位・3位を決める方法の数:
\(_5P_3 = 5 \times 4 \times 3 = 60\)
\(_5P_3 = 5 \times 4 \times 3 = 60\)
組み合わせ(Combination):順番なし
\[ _nC_r = \binom{n}{r} = \frac{n!}{r!(n-r)!} \]
5人の中から3人を選ぶ方法の数:
\(_5C_3 = \dfrac{5!}{3!2!} = 10\)
\(_5C_3 = \dfrac{5!}{3!2!} = 10\)
5. 練習問題
- データ:2, 5, 5, 8, 10 の平均値・中央値・最頻値を求めなさい。
- コインを2枚同時に投げるとき、2枚とも表が出る確率を求めなさい。
- 10人の中から委員4人を選ぶ方法は何通りですか?
答え
- 平均=6、中央値=5、最頻値=5
- \(P = \dfrac{1}{2} \times \dfrac{1}{2} = \dfrac{1}{4}\)
- \(_{10}C_4 = \dfrac{10!}{4!6!} = 210\)通り
🔗 次の概念へのブリッジ
身長・体重のような連続データの確率はどうやって求めるのだろうか?
離散確率は場合の数で数えられるが、連続確率分布の確率は曲線の下の面積だ。これが微積分(積分)と統計が交わるポイントになる。
微積分へ🔓 マスターするとアンロックされます
統計はデータサイエンスと科学的推論の基礎です。平均・分散・確率を理解した今、微積分と組み合わせて正規分布・確率密度関数まで進む準備が整いました。
試験直前 5分チェックリスト
- 分散=偏差²の平均 であることを確認する
- 標準偏差=√分散 で計算する
- P(A∪B)=P(A)+P(B)−P(A∩B) を確認する
- 独立事象: P(A∩B)=P(A)×P(B) を確認する
- 平均は外れ値に敏感・中央値は頑健であることを覚えておく
エビングハウス忘却曲線に基づく復習
学んだ内容を長期記憶に定着させるには、間隔を空けて繰り返し復習しましょう。
翌日
3日後
1週間後
1か月後