※本コラムは、以前に個人ブログとして公開していた内容を、加筆・再構成のうえ掲載しております。技術的な内容は執筆当時のものであり、現在とは異なる場合がございます。
こんにちは。Anagraftの伊藤です。
本記事では、筆者が実際に統計検定を受けたうえで行った試験対策について記します。 参考にした書籍や、どの程度まで理解しておいたのか、問題ごとの対策などをまとめています。
一部、筆者の理解不足により誤った内容が記載されている可能性もありますのでご理解ください。 参考にしていただく際には、必ず公式ページ・教科書も併せてご参照ください。
目次
筆者が受験した当時、統計検定は年に数回、会場で一斉に行われる紙ベースの試験(PBT方式)でした。 その後、2021年に試験制度が大きく変わり、現在では1級を除く各級はCBT方式(テストセンターのコンピュータ上で受験する方式)に完全移行しています。 CBT方式は全国のテストセンターで通年実施されているため、自分の学習ペースに合わせて受験日を決められるようになりました。
2級・準1級の現在の試験形式は以下のとおりです。
| 級 | 方式 | 試験時間 | 問題数 | 出題形式 | 合格基準 |
|---|---|---|---|---|---|
| 2級 | CBT | 90分 | 35問程度 | 4〜5肢選択問題 | 100点満点中60点以上 |
| 準1級 | CBT | 90分 | 25〜30問程度 | 5肢選択問題・数値入力問題 | 100点満点中60点以上 |
特に準1級は、紙試験時代にあった部分記述問題・論述問題が廃止され、選択問題と数値入力問題のみになりました。 このため、現在は論述対策は不要です(本記事の後半で当時の経験談に触れますが、その点を踏まえてお読みください)。
出題範囲や求められる理解のレベルは紙試験時代から大きくは変わっていませんので、以降に記す勉強の進め方は現在でもそのまま活用できると考えています。
公式サイトの試験概要ページは以下になります。
マンガでわかる統計学(※統計学初学者向け)
文系出身など、数式や数学、確率統計に全く馴染みのない初学者におすすめの本です。 確率や統計はやはり数学ですので、後述の教科書も数式が多く登場し、抽象的な表現による解説が中心的です。 そのような統計学の数式のイメージを、実際の世の中で考えるとどう解釈すれば良いのかの紐付けのきっかけになるような書籍(漫画?)です。
日本統計学会公式認定 統計検定2級対応 統計学基礎
統計検定2級対応の公式教科書です。 基本的にはこの1冊で十分です。 公式の教科書と謳っているだけのことはあり、統計検定2級までに出てくる範囲についてコンパクトにまとめられていると思います。
また、中身の練習問題に関しては、公式の統計検定のホームページにて「練習問題の解答」が公開されていますので、こちらも併せて活用すると良いと思います。
44の例題で学ぶ統計的検定と推定の解き方
後述の公式問題集の方が優先ですが、特に区間推定・仮説検定の範囲で理解度が怪しくて、もっと問題を解いてみたいという場合には、この書籍がおすすめです。 文字通り、区間推定・仮説検定の問題と解説の書籍です。 2級でよく出題される範囲を中心に活用すると良いと思います。
日本統計学会公式認定 統計検定2級 公式問題集
公式問題集です。 どのような資格試験においても、過去問・問題演習は対策の要です。 筆者が受験した当時は年ごとの過去問題集が刊行されていましたが、CBT方式への移行後は「CBT対応版」の公式問題集が刊行されていますので、これから受験される方はこちらを利用すると良いでしょう。 少なくとも必ず1冊は取り組むべきです。
体感としては教科書・問題集の8割程度を理解できていれば合格できると思います。
やはり公式問題集が対策の要であり、以下のように問題演習のサイクルを回して、順番に分からないところを潰していきます。
何度も解いていると、出題の傾向や解答のコツもだんだんとわかってきて、自然と合格ラインに乗ってくると思います。
2級はよく出題される範囲に傾向があります。
2級では色々な確率分布について出題されますが、教科書に登場する色々な確率分布の全てを把握しておく必要はなさそうに思いました。 例えば、離散分布の中でも、二項分布やポアソン分布はよく出題されやすい傾向がありますが、負の二項分布や超幾何分布はあまり出題されません。 個人的に、勉強しておくと良さそうな確率分布を、以下にまとめました。 確率(密度)関数から平均と分散を自分で計算できるまで理解できれば良いですが、余裕がなければ丸暗記してしまっても良いです。
よく出題される確率分布
| 確率分布 | 説明 | 離散か連続か | 確率(密度)関数 | 平均 | 分散 |
|---|---|---|---|---|---|
| ベルヌーイ分布 \(Ber(p)\) |
成功確率が\(p\)の試行1回の 成功(1)・失敗(0)を表す確率変数の分布 |
離散 | \(p^{x}(1-p)^{1-x}\) | \(p\) | \(p(1-p)\) |
| 二項分布 \(Bin(n,p)\) |
成功する確率が\(p\)の試行を \(n\)回行った時の成功の数の分布 |
離散 | \(_{n}C_{x}p^{x}(1-p)^{n-x}\) | \(np\) | \(np(1-p)\) |
| 幾何分布 \(Geo(p)\) |
成功する確率が\(p\)の試行を続けて、 \(x\)回目で初めて成功する時の\(x\)の分布 |
離散 | \(p(1-p)^{x-1}\) | \(\displaystyle\frac{1}{p}\) | \(\displaystyle\frac{1-p}{p^2}\) |
| ポアソン分布 \(Po({\lambda})\) |
単位時間あたりに平均\(\lambda\)回起こる現象が 単位時間中に起きる回数の分布 |
離散 | \(e^{-\lambda}\displaystyle\frac{\lambda^x}{x!}\) | \(\lambda\) | \(\lambda\) |
| 一様分布 \(U(a,b)\) |
区間\([a,b]\)の中で、 どこの値を取る確率も全て一定となる分布 (表は連続一様分布の場合) |
連続 (離散の場合もある) |
\(\displaystyle\frac{1}{b-a}\) | \(\displaystyle\frac{a+b}{2}\) | \(\displaystyle\frac{(b-a)^2}{12}\) |
| 指数分布 \(Exp({\lambda})\) |
単位時間当たりの生起回数が \(Po(\lambda)\)に従うような事象が初めて生起するまでの 待ち時間\(t\)の分布 |
連続 | \({\lambda}e^{-{\lambda}t}\) | \(\displaystyle\frac{1}{\lambda}\) | \(\displaystyle\frac{1}{\lambda^2}\) |
| 正規分布 \(N({\mu},{\sigma}^2)\) |
期待値\(\mu\)付近に集積するような連続値変数の分布 | 連続 | \(\displaystyle\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\displaystyle\frac{(x-\mu)^2}{2\sigma^2}}\) | \(\mu\) | \(\sigma^2\) |
区間推定・仮説検定についても同様で、教科書には記載されているもののあまり出題されないような範囲は後回しで構わないと思います。 基本的にこれらの手法のモチベーションは、少ないサンプルデータからどうにかして母集団の性質(母数=母平均や母分散など)を知りたいということです。 区間推定も仮説検定もやっていることは同じで、前提や仮説の上で、(検定)統計量が従う確率分布(t分布、カイ二乗分布、F分布など)の確率分布表と、与えられた有意確率(1%や5%など)から、統計量の値がとりうる範囲を求めており、この範囲のことを、区間推定では信頼区間、仮説検定では棄却域と呼んでいる違いがあるだけです。
※この2つの手法はアプローチのニュアンスが少し異なっており、区間推定では、同じ手続きで区間を求めることを繰り返したとき99%や95%の割合で母集団の真の母数を含むような区間(信頼区間)を求めることを目的とし、仮説検定では帰無仮説を棄却したい(仮説を否定して母集団の性質に当たりをつけたい)という目的で、帰無仮説が正しい時に99%や95%の確率でとりうる確率変数の値の範囲からちゃんと外れるかどうか(1%や5%という滅多に起こらない値をとっているから仮説は違っている)を確認するという違いがあります。
よく出題される区間推定・仮説検定の種類
| 関心のある統計量 | 区間推定 | 仮説検定 | |
|---|---|---|---|
| 信頼区間 | 帰無仮説 | 検定統計量 | |
| 母平均 (母分散が既知の場合) |
\(\biggl[\overline{x}-z_{\frac{\alpha}{2}}\displaystyle\frac{\sigma}{\sqrt{n}},\hspace{1em}\overline{x}+z_{\frac{\alpha}{2}}\displaystyle\frac{\sigma}{\sqrt{n}}\biggr],\) \(\overline{x}:\text{標本平均}\) |
\(\mu=\mu_0\) | \(\displaystyle\frac{\overline{x}-\mu_0}{\sqrt{\displaystyle\frac{\sigma^2}{n}}}\) |
| 母平均 (母分散が未知の場合) |
\(\biggl[\overline{x}-t_{\frac{\alpha}{2}}(n-1)\displaystyle\frac{\widehat{\sigma}}{\sqrt{n}},\hspace{1em}\overline{x}+t_{\frac{\alpha}{2}}(n-1)\displaystyle\frac{\widehat{\sigma}}{\sqrt{n}}\biggr],\) \(\overline{x}:\text{標本平均},\hspace{0.5em}\widehat{\sigma}^2:\text{不偏標本分散}\) |
\(\mu=\mu_0\) | \(\displaystyle\frac{\overline{x}-\mu_0}{\sqrt{\displaystyle\frac{\widehat{\sigma}^2}{n}}}\) |
| 母分散 | \(\biggl[\displaystyle\frac{(n-1)\widehat{\sigma}^2}{\chi^2_{\frac{\alpha}{2}}(n-1)},\hspace{1em}\displaystyle\frac{(n-1)\widehat{\sigma}^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)}\biggr],\) \(\widehat{\sigma}^2:\text{不偏標本分散}\) |
\(\sigma^2=\sigma^2_0\) | \(\displaystyle\frac{1}{\sigma^2_0}\sum^n_{i=1}(x_i-\overline{x})^2\) |
| 母比率 | \(\biggl[\widehat{p}-z_{\frac{\alpha}{2}}\sqrt{\displaystyle\frac{\widehat{p}(1-\widehat{p})}{n}},\hspace{1em}\widehat{p}+z_{\frac{\alpha}{2}}\sqrt{\displaystyle\frac{\widehat{p}(1-\widehat{p})}{n}}\biggr],\) \(\widehat{p}:\text{標本比率}\) |
\(p=p_0\) | \(\displaystyle\frac{\widehat{p}-p_0}{\sqrt{\displaystyle\frac{p_0(1-p_0)}{n}}}\) |
| 対応のない母平均の差 (母分散が既知の場合) |
\(\biggl[\overline{x_1}-\overline{x_2}-z_{\frac{\alpha}{2}}\displaystyle\sqrt{\displaystyle\frac{\sigma^2_1}{n_1}+\displaystyle\frac{\sigma^2_2}{n_2}},\hspace{1em}\overline{x_1}-\overline{x_2}+z_{\frac{\alpha}{2}}\displaystyle\sqrt{\displaystyle\frac{\sigma^2_1}{n_1}+\displaystyle\frac{\sigma^2_2}{n_2}}\biggr],\) \(\overline{x}_{1,2}:\text{標本平均}\) |
\(\mu_1=\mu_2\) | \(\displaystyle\frac{\overline{x_1}-\overline{x_2}}{\displaystyle\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}}\) |
| 対応のない母平均の差 (母分散が未知かつ等分散) |
\(\biggl[\overline{x_1}-\overline{x_2}-t_{\frac{\alpha}{2}}(n_1+n_2-2)\displaystyle\sqrt{\widehat{\sigma}^2\biggl(\frac{1}{n_1}+\frac{1}{n_2}\biggr)},\) \(\hspace{2em}\overline{x_1}-\overline{x_2}+t_{\frac{\alpha}{2}}(n_1+n_2-2)\displaystyle\sqrt{\widehat{\sigma}^2\biggl(\frac{1}{n_1}+\frac{1}{n_2}\biggr)}\biggr],\) \(\overline{x}_{1,2}:\text{標本平均},\hspace{0.5em}\widehat{\sigma}^2=\frac{(n_1-1)\widehat{\sigma_1}^2+(n_2-1)\widehat{\sigma_2}^2}{n_1+n_2-2}\) |
\(\mu_1=\mu_2\) | \(\displaystyle\frac{\overline{x_1}-\overline{x_2}}{\widehat{\sigma}\displaystyle\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\) |
| 母分散の比 | \(\biggl[\displaystyle\frac{1}{F_{\frac{\alpha}{2}}(n_1-1,n_2-1)}\cdot\displaystyle\frac{\widehat{\sigma_1}^2}{\widehat{\sigma_2}^2},\hspace{0.5em}\displaystyle\frac{1}{F_{1-\frac{\alpha}{2}}(n_1-1,n_2-1)}\cdot\displaystyle\frac{\widehat{\sigma_1}^2}{\widehat{\sigma_2}^2}\biggr]\) |
\(\displaystyle\frac{\widehat{\sigma_1}^2}{\widehat{\sigma_2}^2}=1\) | \(\displaystyle\frac{\widehat{\sigma_1}^2}{\widehat{\sigma_2}^2}\) |
| 母比率の差 | \(\biggl[\widehat{p_1}-\widehat{p_2}-z_{\frac{\alpha}{2}}\displaystyle\sqrt{\frac{\widehat{p_1}(1-\widehat{p_1})}{n_1}+\frac{\widehat{p_2}(1-\widehat{p_2})}{n_2}},\) \(\hspace{2em}\widehat{p_1}-\widehat{p_2}+z_{\frac{\alpha}{2}}\displaystyle\sqrt{\frac{\widehat{p_1}(1-\widehat{p_1})}{n_1}+\frac{\widehat{p_2}(1-\widehat{p_2})}{n_2}}\biggr]\) |
\(p_1=p_2\) | \(\displaystyle\frac{\widehat{p_1}-\widehat{p_2}}{\displaystyle\sqrt{\widehat{p}(1-\widehat{p})\bigl(\frac{1}{n_1}+\frac{1}{n_2}\bigr)}},\) \(\widehat{p}=\frac{n_1\widehat{p_1}+n_2\widehat{p_2}}{n_1+n_2}\) |
また、以下の仮説検定もよく出題されますので勉強しておくと良いと思います。 これらは上記のように一つの統計量に注目しているものではなく、与えられたサンプルデータがどのような確率分布に従う(適合する)かを確かめる検定です。
2級においては、これら区間推定や仮説検定に関しては、あまり踏み込んだ理解はそこまで求められておらず、まずは問題の題意からどの手法を使えば良さそうかを選択でき、やり方に沿って計算することができて、得られた結果を正しく解釈できていれば問題なさそうです。
CBT方式でも選択式の解答が中心ですので、検定統計量の値を求めるだけで選択肢を絞れる問題もあります。計算はしっかりできるようにしておくと良いでしょう。
公式サイトの試験概要ページは以下になります。
日本統計学会公式認定 統計検定準1級対応 統計学実践ワークブック
筆者が受験した当時は準1級対応の公式教科書が存在しなかったのですが、2020年に本書が刊行され、現在では準1級対策の事実上の標準テキストとなっています。 準1級の広い出題範囲をほぼ網羅している唯一の書籍であり、例題・章末問題を通じた演習の軸としても使いやすい構成です。 これから準1級を受験される方は、まず本書を軸に学習を進めることをおすすめします。
日本統計学会公式認定 統計検定1級対応 統計学
統計検定1級対応の公式教科書です。 筆者が受験した当時は準1級対応の教科書がなかったため、2級を超える範囲はこちらでカバーしました。 私の場合は、2級対応の教科書の方でカバーできる範囲については2級の教科書を中心に勉強を進め、2級対応の教科書でカバーできない範囲、例えば、パス解析、自己回帰モデル、ランダムウォークなどはこちらを参考にしました。 現在はまずワークブックを優先し、より深く理解したい範囲についてこちらで補強する、という位置づけで良いと思います。
統計的学習の基礎 ―データマイニング・推論・予測―
通称「カステラ本」です。 公式教科書であまり対応されていない範囲の勉強に活用できます。 具体的には、EMアルゴリズムやギブスサンプリングは、過去の準1級の試験に出題されたこともあるので、こちらの書籍を参考にしました。 (機械学習分野の定番書ですが、かなり本格的な書籍ですので、試験対策としては該当範囲のつまみ読みで十分です)
日本統計学会公式認定 統計検定準1級 公式問題集
準1級の公式問題集です。 2級の対策でも述べていて繰り返しになりますが、どのような資格試験においても、過去問・問題演習は対策の要です。 準1級の公式問題集は紙試験(PBT)時代の過去問を収録したもので、CBT方式の試験問題自体は公表されていませんが、出題範囲やレベル感を掴むうえで現在でも十分有効な演習材料です。 少なくとも必ず1冊は取り組むべきです。
目標レベルの目安としては、
あたりかと思います。
勉強の進め方は2級と同様で、問題集を軸に「解く → わからなかった問題をチェック → 教科書で理解 → 再度解く」のサイクルを、チェックがなくなるまで繰り返します。 何度も解いていると、出題の傾向や解答のコツもだんだんとわかってきて、自然と合格ラインに乗ってくると思います。
解答戦略としては、大問の小問1、2…とあるもののうち、小問1はいずれも2級レベルの知識の問題だったりすることが多いので、こういったところを見逃さずに得点を拾うようにすると良いと思います。 私の場合、小問2以降を見たときに「これは理解できていないだろうな」とすぐに感じたものはきっぱり諦めて次の大問へ行き、出来る限り小問1を解いて自信のある解答を増やすように心掛けました。 CBT方式は1問ずつ独立した出題が中心ですが、「確実に取れる問題から得点を積み上げる」という考え方は今も変わらず有効です。
なお、筆者が受験した紙試験時代には論述問題(3問中1問選択)があり、出題されやすい傾向のある範囲(主成分分析、回帰分析、分散分析、時系列分析)を重点的に勉強して臨みました。 実際に本番でも主成分分析の問題が出題され、そちらを選択して解答することで無事合格できました。 前述のとおり、現在のCBT方式では論述問題は廃止されていますので論述対策は不要ですが、これらの多変量解析・時系列分析の分野は引き続き準1級の主要な出題範囲ですので、重点的に勉強しておく価値はあります。
以上、今回は統計検定準1級/2級の試験対策について、筆者の受験経験をもとに紹介しました。
試験方式はCBTに変わりましたが、「公式教科書・ワークブックで範囲を押さえ、問題集のサイクルで弱点を潰す」という王道の対策は変わりません。 統計検定は、データ分析の土台となる統計学の理解度を段階的に確認できる良い目標になりますので、データサイエンスを学ばれている方はぜひ挑戦してみてください。
本記事が皆さんの試験対策の参考になれば幸いです。