本記事では、筆者が実際に統計検定を受けた上で行った試験対策について記します。
参考にした書籍や、どの程度まで理解しておいたのか、問題ごとの対策などをまとめています。
一部、筆者の理解不足により誤った内容が記載されている可能性もありますのでご理解下さい。
参考にしていただく際には、必ず公式ページ・教科書も併せてご参照下さい。
統計検定2級
公式サイトの試験概要ページは以下になります。
参考書籍
マンガでわかる統計学 (※統計学初学者向け)
文系出身など、数式や数学、確率統計に全く馴染みのない初学者におすすめの本です。
確率や統計はやはり数学ですので、後述の教科書も数式が多く登場し抽象的な表現による解説が中心的です。
そのような統計学の数式のイメージを、実際の世の中で考えるとどう解釈すれば良いのかの紐付けのきっかけになるような書籍(漫画?)です。
日本統計学会公式認定 統計検定2級対応 統計学基礎
統計検定2級対応の公式教科書です。
基本的にはこの1冊で十分です。
公式の教科書と謳っているだけのことはあり、統計検定2級までに出てくる範囲についてコンパクトにまとめられていると思います。
また、中身の練習問題に関しては、公式の統計検定のホームページにて「練習問題の解答」がアップされていますので、こちらも併せて活用すると良いと思います。(2級教科書の項目)
44の例題で学ぶ統計的検定と推定の解き方
後述の公式問題集の方が優先ですが、特に区間推定・仮説検定の範囲で理解度が怪しくて、もっと問題を解いてみたいという場合には、この書籍がおすすめです。
文字通り、区間推定・仮説検定の問題と解説の書籍です。
上記の公式教科書で説明した通り、2級でよく出題される範囲を中心に活用すると良いと思います。
日本統計学会公式認定 統計検定 2級 公式問題集 (各年バージョン)
公式問題集です。
どのような資格試験においても、過去問の勉強は重要です。
できるのなら全ての年の分を抑えておくことに越したことはありませんが、少なくとも必ず1冊は取り組むべきです。
また、統計検定の公式ホームページでも1回分の過去問はダウンロードできます。
まずは力試しをしてみる目的で使ってみる分には構いませんが、試験対策に取り組むのであれば試験3回分以上は欲しいところなので、書籍の購入をおすすめします。
どのくらいまで理解すればいいのか?
体感としては教科書・問題集の8割程度を理解できていれば合格できると思います。
やはり公式問題集が対策の要であり、以下のように過去問の取り組みのサイクルを回して、順番に分からないところを潰していきます。
- 過去問を全て解答してみる。この際、わからなかった問題(すぐに解答が思い浮かばなかったものも含めて)にチェックを入れておく。
- チェックした問題を、解説や教科書を参考にし、やり方を理解する。ここで教科書の該当章の練習問題も解いてみて理解を深める。
- 再度、わからなかった問題のみ解答する。
- 1~3を、チェックがなくなるまで繰り返す。
何度も解いていると、出題の傾向や解答のコツもだんだんとわかってきて、自然と合格ラインに乗ってくると思います。
前述の通り、2級はよく出題される範囲に傾向があります。
2級では色々な確率分布について出題されますが、教科書に登場する色々な確率分布の全てを把握しておく必要はなさそうに思いました。
例えば、離散分布の中でも、二項分布やポアソン分布はよく出題されやすい傾向がありますが、負の二項分布や超幾何分布はあまり出題されません。
個人的、勉強しておくと良さそうな確率分布を、以下にまとめました。
確率(密度)関数から平均と分散を自分で計算できるまで理解できれば良いですが、余裕がなければ丸暗記してしまっても良いです。
- よく出題される確率分布
確率分布 | 説明 | 離散か連続か | 確率(密度)関数 | 平均 | 分散 |
---|---|---|---|---|---|
ベルヌーイ分布 \(Ber(p)\) |
成功する確率が\(p\)の試行を行った時に 成功する確率の分布 |
離散 | \(p\) | \(p\) | \(p(1-p)\) |
二項分布 \(Bin(n,p)\) |
成功する確率が\(p\)の試行を \(n\)回行った時の成功の数の分布 |
離散 | \(_{n}C_{x}p^{x}(1-p)^{n-x}\) | \(np\) | \(np(1-p)\) |
幾何分布 \(Geo(p)\) |
成功する確率が\(p\)の試行を続けて、 \(x\)回目で初めて成功する時の\(x\)の分布 |
離散 | \(p(1-p)^{x-1}\) | \(\displaystyle\frac{1}{p}\) | \(\displaystyle\frac{1-p}{p^2}\) |
ポアソン分布 \(Po({\lambda})\) |
単位時間あたりに平均\(\lambda\)回起こる現象が 単位時間中に起きる回数の分布 |
離散 | \(e^{-\lambda}\displaystyle\frac{\lambda^x}{x!}\) | \(\lambda\) | \(\lambda\) |
一様分布 \(U(a,b)\) |
変数の幅を固定した場合に、 どこの値を取る確率も全て一定となる分布 |
両方ありうる | \(\displaystyle\frac{1}{b-a}\) | \(\displaystyle\frac{a+b}{2}\) | \(\displaystyle\frac{(b-a)^2}{12}\) |
指数分布 \(Exp({\lambda})\) |
単位時間当たりの生起回数が \(Po(\lambda)\)に従うような事象が初めて生起するまでの 待ち時間\(t\)の分布 |
連続 | \({\lambda}e^{-{\lambda}t}\) | \(\displaystyle\frac{1}{\lambda}\) | \(\displaystyle\frac{1}{\lambda^2}\) |
正規分布 \(N({\mu},{\sigma}^2)\) |
期待値\(\mu\)付近に集積するような連続値変数の分布 | 連続 | \(\displaystyle\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\displaystyle\frac{(x-\mu)^2}{2\sigma^2}}\) | \(\mu\) | \(\sigma^2\) |
区間推定・仮説検定についても同様で、教科書には記載されているもののあまり出題されないような範囲は後回しで構わないと思います。
基本的にこれらの手法のモチベーションは、少ないサンプルデータからどうにかして母集団の性質(統計量=平均や分散など)を知りたいということです。
区間推定も仮説検定もやっていることは同じで、前提や仮説の上で、(検定)統計量が従う確率分布(t分布、カイ二乗分布、F分布など)の確率分布表と、与えられた有意確率(1%や5%など)から、統計量の値がとりうる範囲を求めており、この範囲のことを、区間推定では信頼区間、仮説検定では棄却域と呼んでいる違いがあるだけです。
※この2つの手法はアプローチのニュアンスが少し異なっており、区間推定では99%や95%の確率で母集団の真の統計量はこの信頼区間に入っているだろうとみなすことを目的とし、仮説検定では帰無仮説を棄却したい(仮説を否定して母集団の性質に当たりをつけたい)という目的で帰無仮説が正しい時に99%や95%の確率でとりうる確率変数の値の範囲からちゃんと外れるかどうか(1%や5%という滅多に起こらない値をとっているから仮説は違っている)を確認するという違いがあります。
- よく出題される区間推定・仮説検定の種類
関心のある統計量 | 区間推定 | 仮説検定 | |
---|---|---|---|
信頼区間 | 帰無仮説 | 検定統計量 | |
母平均 (母分散が既知の場合) |
\(\biggl[\overline{x}-z_{\frac{\alpha}{2}}\displaystyle\frac{\sigma}{\sqrt{n}},\hspace{1em}\overline{x}+z_{\frac{\alpha}{2}}\displaystyle\frac{\sigma}{\sqrt{n}}\biggr],\) \(\overline{x}:\text{標本平均}\) |
\(\mu=\mu_0\) | \(\displaystyle\frac{\overline{x}-\mu_0}{\sqrt{\displaystyle\frac{\sigma^2}{n}}}\) |
母平均 (母分散が未知の場合) |
\(\biggl[\overline{x}-t_{\frac{\alpha}{2}}(n-1)\displaystyle\frac{\widehat{\sigma}}{\sqrt{n}},\hspace{1em}\overline{x}+t_{\frac{\alpha}{2}}(n-1)\displaystyle\frac{\widehat{\sigma}}{\sqrt{n}}\biggr],\) \(\overline{x}:\text{標本平均},\hspace{0.5em}\widehat{\sigma}^2:\text{不偏標本分散}\) |
\(\mu=\mu_0\) | \(\displaystyle\frac{\overline{x}-\mu_0}{\sqrt{\displaystyle\frac{\widehat{\sigma}^2}{n}}}\) |
母分散 | \(\biggl[\displaystyle\frac{(n-1)\widehat{\sigma}^2}{\chi^2_{\frac{\alpha}{2}}(n-1)},\hspace{1em}\displaystyle\frac{(n-1)\widehat{\sigma}^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)}\biggr],\) \(\widehat{\sigma}^2:\text{不偏標本分散}\) |
\(\sigma^2=\sigma^2_0\) | \(\displaystyle\frac{1}{\sigma^2_0}\sum^n_{i=1}(x_i-\overline{x})^2\) |
母比率 | \(\biggl[\widehat{p}-z_{\frac{\alpha}{2}}\sqrt{\displaystyle\frac{p(1-p)}{n}},\hspace{1em}\widehat{p}+z_{\frac{\alpha}{2}}\sqrt{\displaystyle\frac{p(1-p)}{n}}\biggr],\) \(\widehat{p}:\text{標本比率}\) |
\(p=p_0\) | \(\displaystyle\frac{\widehat{p}-p_0}{\sqrt{\displaystyle\frac{p_0(1-p_0)}{n}}}\) |
対応のない母平均の差 (母分散が既知の場合) |
\(\biggl[\overline{x_1}-\overline{x_2}-z_{\frac{\alpha}{2}}\displaystyle\sqrt{\displaystyle\frac{\sigma^2_1}{n_1}+\displaystyle\frac{\sigma^2_2}{n_2}},\hspace{1em}\overline{x_1}-\overline{x_2}+z_{\frac{\alpha}{2}}\displaystyle\sqrt{\displaystyle\frac{\sigma^2_1}{n_1}+\displaystyle\frac{\sigma^2_2}{n_2}}\biggr],\) \(\overline{x}_{1,2}:\text{標本平均}\) |
\(\mu_1=\mu_2\) | \(\displaystyle\frac{\overline{x_1}-\overline{x_2}}{\displaystyle\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}}\) |
対応のない母平均の差 (母分散が未知かつ等分散) |
\(\biggl[\overline{x_1}-\overline{x_2}-t_{\frac{\alpha}{2}}(n_1+n_2-2)\displaystyle\sqrt{\widehat{\sigma}^2\biggl(\frac{1}{n_1}+\frac{1}{n_2}\biggr)},\) \(\hspace{2em}\overline{x_1}-\overline{x_2}+t_{\frac{\alpha}{2}}(n_1+n_2-2)\displaystyle\sqrt{\widehat{\sigma}^2\biggl(\frac{1}{n_1}+\frac{1}{n_2}\biggr)}\biggr],\) \(\overline{x}_{1,2}:\text{標本平均},\hspace{0.5em}\widehat{\sigma}^2=\frac{(n_1-1)\widehat{\sigma_1}^2+(n_2-1)\widehat{\sigma_2}^2}{n_1+n_2-2}\) |
\(\mu_1=\mu_2\) | \(\displaystyle\frac{\overline{x_1}-\overline{x_2}}{\widehat{\sigma}\displaystyle\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\) |
母分散の比 | \(\biggl[F_{1-\frac{\sigma}{2}}(n_1-1,n_2-1)\displaystyle\frac{\widehat{\sigma_1}^2}{\widehat{\sigma_2}^2},\hspace{0.5em}F_{\frac{\sigma}{2}}(n_1-1,n_2-1)\displaystyle\frac{\widehat{\sigma_1}^2}{\widehat{\sigma_2}^2}\biggr]\) |
\(\displaystyle\frac{\widehat{\sigma_1}^2}{\widehat{\sigma_2}^2}=1\) | \(\displaystyle\frac{\widehat{\sigma_1}^2}{\widehat{\sigma_2}^2}\) |
母比率の差 | \(\biggl[\widehat{p_1}-\widehat{p_2}-z_{\frac{\alpha}{2}}\displaystyle\sqrt{\frac{\widehat{p_1}(1-\widehat{p_1})}{n_1}+\frac{\widehat{p_2}(1-\widehat{p_2})}{n_2}},\) \(\hspace{2em}\widehat{p_1}-\widehat{p_2}+z_{\frac{\alpha}{2}}\displaystyle\sqrt{\frac{\widehat{p_1}(1-\widehat{p_1})}{n_1}+\frac{\widehat{p_2}(1-\widehat{p_2})}{n_2}}\biggr]\) |
\(p_1=p_2\) | \(\displaystyle\frac{\widehat{p_1}-\widehat{p_2}}{\displaystyle\sqrt{\widehat{p}(1-\widehat{p})}\bigl(\frac{1}{n_1}+\frac{1}{n_2}\bigr)},\) \(\widehat{p}=\frac{n_1\widehat{p_1}+n_2\widehat{p_2}}{n_1+n_2}\) |
また、以下の仮説検定もよく出題されますので勉強しておくと良いと思います。
これらは上記らのように一つの統計量に注目しているものではなく、与えられたサンプルデータがどのような確率分布に従う(適合する)かを確かめる検定です。
- カイ二乗検定
- 適合度の検定
- 独立性の検定
2級においては、これら区間推定や仮説検定に関しては、あまり踏み込んだ理解はそこまで求められておらず、まずは問題の題意からどの手法を使えば良さそうかを選択でき、やり方に沿って計算することができて、得られた結果を正しく解釈できていれば問題なさそうです。
マーク式回答ですので、検定統計量の値を求めるだけで選択肢を減らせますので、計算はしっかりできるようにしておくと良いでしょう。
統計検定準1級
公式サイトの試験概要ページは以下になります。
参考書籍
日本統計学会公式認定 統計検定1級対応 統計学
統計検定1級対応の公式教科書です。
準1級対応の教科書はないので、こちらで2級を超える範囲はカバーします。
私の場合は、2級対応の教科書の方でカバーできる範囲については2級の教科書を中心に勉強を進め、2級対応の教科書でカバーできない範囲、例えば、パス解析、自己回帰モデル、ランダムウォークなどはこちらを参考にしました。
統計学的学習の基礎 -データマイニング・推論・予測-
通称「カステラ本」です。
上記らの公式教科書であまり対応されていない範囲の勉強に活用できます。
具体的には、EMアルゴリズムやギプスサンプリングは、過去の準1級の試験に出題されたこともあるので、こちらの書籍を参考にしました。
日本統計学会公式認定 統計検定 準1級 公式問題集 (各年バージョン)
準1級の過去問です。
2級の対策の方にも述べていて繰り返しになりますが、どのような資格試験においても、過去問の勉強は重要です。
できるのなら全ての年の分を抑えておくことに越したことはありませんが、少なくとも必ず1冊は取り組むべきです。
統計検定の公式ホームページでも1回分の過去問はダウンロードできます。
まずは力試しをしてみる目的で使ってみる分には構いませんが、試験対策に取り組むのであれば試験3回分以上は欲しいところなので、書籍の購入をおすすめします。
どのくらいまで理解すればいいのか?
準1級の教科書がないので目標レベルが難しいところではありますが、参考として、
- 2級の過去問でほぼ満点が取れる
- 区間推定や仮説検定においては、やり方の理解のみに限らず、ちゃんと仕組みを理解しているかを問うような問題が増えます
- 1級の教科書に記載されている、準1級にも出題されたことがある範囲が8割ほど理解できている
辺りが目安かと思います。
以下は再び2級対策の記述と繰り返しになりますが、やはり公式問題集が対策の要であり、以下のように過去問の取り組みのサイクルを回して、順番に分からないところを潰していきます。
- 過去問を全て解答してみる。この際、わからなかった問題(すぐに解答が思い浮かばなかったものも含めて)にチェックを入れておく。
- チェックした問題を、解説や教科書を参考にし、やり方を理解する。ここで教科書の該当章の練習問題も解いてみて理解を深める。
- 再度、わからなかった問題のみ解答する。
- 1~3を、チェックがなくなるまで繰り返す。
何度も解いていると、出題の傾向や解答のコツもだんだんとわかってきて、自然と合格ラインに乗ってくると思います。
部分記述問題やマーク式問題については、例えば、大問の小問1,2…があるものは小問1はいずれも2級の知識の問題だったりすることが多いので、こういったところを見逃さずに得点を拾うようにすると良いと思います。
私の場合、小問2以降を見たときに「これは理解できていないだろうな」とすぐに感じたものはきっぱり諦めて次の大問へ行き、出来る限り小問1を解いて自信のある回答を増やすように心掛けました。
論述問題に関しては、個人的には、出題範囲に若干の傾向があるように感じたため、出来る限り出題されやすい傾向のある範囲を勉強しました。
具体的には、主成分分析、回帰分析、分散分析、時系列分析です。
実際に本番においても、主成分分析の問題が含まれていましたのでそちらを選択し解答することで無事合格しました。