データ分析や統計学では、複数の仮説検定を一度に行うことがあります。このような状況を 多重検定 と呼びます。
多重検定には注意すべき問題点がありますが、正しい理解と対策を取ることで適切に扱うことが可能です。
本記事では、多重検定の基本概念、問題点をまとめてみます。
多重検定とは
多重検定とは、複数の仮説検定を同時に実施することを指します。
例えば、100種類の変数について平均値が異なるかを検定したり、遺伝子研究で数千個の遺伝子の関連性を一斉に調べたりする場合です。
仮説検定では通常、以下の仮説を検証します。
- 帰無仮説(H₀): ある条件下で差がない、または関係がない。
- 対立仮説(H₁): 条件下で差がある、または関係がある。
各検定には誤って帰無仮説を棄却してしまう可能性(第一種の過誤)が存在します。
この確率は通常、有意水準(α) で設定されます(例えば、α = 0.05)。
多重検定の問題点
多重検定の主な問題点は、第一種の過誤が増加することです。
具体的には、仮説検定の回数が増えると、どれか一つで偶然に有意な結果が出る可能性が高くなります。
例えば、有意水準を α = 0.05 に設定した場合、1回の検定で帰無仮説が誤って棄却される確率は 5% です。
検定を 100 回実施すると、少なくとも 1 回以上帰無仮説を誤って棄却する確率は次のように計算できます。
$$P(\text{少なくとも1回の誤り}) = 1 – (1 – \alpha)^{n}$$
\(n\)は検定回数(ここでは 100)です。
この場合の確率\(P\)は、
$$P = 1 – (1 – 0.05)^{100} \approx 0.994$$
となります。
つまり、99.4%の確率でどれかの検定で誤った結論が導かれる可能性があるということです。
問題点の具体例
例えば、遺伝子研究において、1万個の遺伝子の発現量を検定すると、誤検出される遺伝子の数が数百に上る可能性があります。
また、何らかの効果検証において、本来は効果がなくても、いずれかの帰無仮説の棄却をもって「効果がある」と判断されてしまう場合があります。
マーケティングのA/Bテストにおいて、複数の広告効果を検証する場合、誤って効果があると判断される広告が増加します。
機能性表示食品の効果の科学的根拠とされる論文において、「評価項目を多数設定して不適切な多重検定を行っている」ケースがあると述べている記事が、過去「日経クロステック」に掲載されていました。
森永乳業・カゴメ・キユーピー・雪印メグの機能性論文を調査、飲水に等しい科学的根拠も | 日経クロステック(xTECH)
端的に言えば、「誤った結論に至る」、「意思決定を誤る」といった可能性があるため、注意が必要です。