本記事を読んでほしい人
論文の解析を理解したいと思った時に、最初にぶつかる壁が「仮説検定」だと思います。
論文についてちょっとだけ知りたいと思った時に、「帰無仮説」とか「棄却」とか耳慣れない言葉が出てきて困った方、習ったときはなんとなく分かった気になるものの、結局どういう意味なのか頭に残っていない、という方も多いのではないでしょうか。
本記事では特に、
・仮説検証を簡単かつ具体的に理解したい
・帰無仮説やp値って結局なに?
という疑問にお答えします。
実は筆者は救急医として働くかたわら、公衆衛生大学院の博士課程で臨床研究を学んでいます。
そこで日夜この「仮説検証」を道具として扱い、論文を書いているわけです。
しかし筆者も大学院に入るまでは、恥ずかしながら仮説検定というものがチンプンカンプンな状態でした。
筆者と同じゼロの状態から学んだ方が、仮説検証についてイメージできるよう、どこよりも簡単な表現だけを用いて説明していきます。
仮説検定とは、「帰無仮説を棄却」できるか判断すること
まず仮説検定で効果を証明する、とは、具体的にどんなことなのでしょうか。
答えは、
仮説検定で「『比較されている両群に差がない』とする帰無仮説を立て、それをさらに『棄却する』こと」
です。これによって、治療の効果を示すことができます。
(より詳しく言うと、「治療に効果がある確率がどのくらい高いのか」を示すことができます。
しかしややこしいので、本記事では大雑把に「治療の効果を示す」と表現することにします。)
ハイ、ちょっと何言ってるのか分かりませんね。
というかこれだけの説明で瞬時に理解できるのなら、こんなブログはすっ飛ばして、より専門的な統計の解説サイトとかを見たほうがいいかもしれません。
それでは、仮説検定について、たぶん日本で一番カンタンな解説を始めましょう。
「帰無仮説を棄却する」は二重否定
例えば、ある病気に対して、あなたに既存の治療法とは違う、画期的だと感じている(つまり推しの)治療法があるとします。
そこで「ある(推しの)新しい治療介入I(Intervention:介入の略です)が、既存の治療C(comparison:比較対象の略です)より効果がある!」と証明したいとします。
このまま、新しい治療介入Iの効果>既存の治療Cの効果 が証明できればいいのですが、そうは問屋が卸しません。
実は統計学的には、”比較したい両群に「差がある」ということ”をそのまま証明するのは非常に難しいのです。
むしろ、新しい治療介入Iの効果≠既存の治療Cの効果を証明する方が、よほど簡単です。
確かに小中高と数学に慣れ親しんだ(あるいは筆者のようにイヤイヤ学んだ)皆さんなら、両者の大小関係を証明するよりも、たったひとつの「=」(イコール)の関係を考える方が簡単だということは、何とな~く理解ができると思います。
そのためやむを得ず、まず(推しの治療介入Iの方が効果があるという考えとは裏腹に)「新しい治療介入Iと既存の治療Cの両群に差がない」と仮定して、検定によってさらにそれを「否定」します。
この最初の部分、「新しい治療介入Iと既存の治療Cの両群に差がない」と仮定することこそが、我らが「帰無仮説」です。
そして後半部分の「否定」を格好良くいったものが「棄却」です。
これら一連の流れをひっくるめて、「仮説検定」と言います。
そしてこの二段構え、つまり否定の否定こそが、「帰無仮説の棄却」です。
これによって、「ほら~『差がない』ことは『ない』ってことは、やっぱり差があるんじゃない!?」と言うことができるわけです。
「○○じゃない、ということはない」
このような二重否定の表現、日本人には割と馴染みがありますよね。一方の英語などではあまり見ない表現です。
帰無仮説がヨーロッパ語系の人たちに理解できるというのなら、このような表現を日常的に使っている我々日本人に、理解できないはずがありません。
そんなわけで、治療効果を証明するとは、どういうことだったでしょうか?
それでは、リピート・アフター・ミー。
これで、帰無仮説の存在については理解できたでしょうか。
仮説検定での治療の効果の証明の仕方が分かりましたね。
しかし実際のところ、新しい治療介入Iと既存の治療介入Cの効果(アウトカム)が全く同じだとしても、効果が出た人の数まで全くの同数になることは、多くありません。
偶然とか、治療を受けた患者さん個人の体質とか、色々なことに影響を受けてしまうからです。
これでは、両群に多少の差があっても、本当に治療の効果に差があるのか分かりません。
そのためこの両群の治療効果(アウトカム)がどの程度離れていれば、「『両群に真の差はない』という帰無仮説」を「棄却(否定)」できるのか、を「偶然のいたずら」という考え方を用いて評価することになります。
これには、皆さんもきっとどこかで見たことのあるだろう、p値というものを使います。
p値がα水準を超えると「統計的に有意」
それでは、p値とは何で、どのように用いるものなのでしょうか。
答えは、
「p値が事前に設定したα水準を上回るか下回るかで、統計的に有意かどうかを決めるもの」
です。
α水準ってなんやねん!と思った方、今から説明させて下さい。
「実際には治療Iと対象治療Cの間に差がないのに、効果に差があると勘違いすること」を統計学用語では「第1種の過誤(type 1 error)」といいます。
α水準とは、この「第1種の過誤を犯す確率」のことです。
つまり、
α水準とは、「実際には治療Iと対象治療Cの間に差がないのに、効果に差があると勘違いする確率」
のことです。
このα水準……何を根拠に決めているのかと言えば、それは我々の”慣習”です。
医療の世界では、α水準には5%(α=0.05)が採用されることが多いですが、これは私達自身が「まぁ、勘違いするリスクが5%くらいならいいかな~?」と決めているにすぎないのです。
そしてp値とは、「p値が、事前に設定したα水準を上回るか下回るかで、統計的に有意かどうかを決めるもの」でしたね。
p値や「統計的に有意」という言葉は、論文の結果を議論する時に、まるで絶対的なもののように扱われていますが、実は全然そんなことないわけです。
結構ビックリですよね。筆者も初めて知ったときは衝撃でした。
なお、実際にp値がこの水準を超えているか否かについては、さすがに独断と偏見で決定!というわけにはいかず、統計学的検定によって判断されます。
結果が偏ったのは「偶然のいたずら」か?
「偶然のいたずら」とは、何か確率的に偏った結果がでたときに、それが偶然の産物であると判断される時に使う言葉です。
統計学では、どこまでが偶然の産物で、どこからが偶然以外の別の理由(例えば治療効果)で説明すべきかを判断する必要があります。
「偶然のいたずら」とは、確率的に偏った結果を、偶然の産物であると判断すること
コインを投げてみよう
では、いっとき治療効果の話から離れて、みんな大好き(大嫌い?)なコイン投げについて考えてみましょう。
普段コイン投げをする人なんてあまりいないのに、どうして統計ってのはコインの話が好きなんでしょうね。
(各面の出る確率が同じ物というなら、サイコロの方がまだ使うかもしれない。いやそうでもない……?)
この質問の答えは簡単、コインには裏と表の2つしかないからです。
研究の統計について考える時、例えば治療と効果のアリ/ナシなど、結果が2つ(2値)になることが多々あります。
2値の結果が、同じくらいの確率で起こるもの……となると、一番手っ取り早い例がコイン投げなわけです。
表が10回連続で出る確率
そんなわけで、諦めてコインをブン投げることにしましょう。
まずはコインを10回投げて、表が10回出る確率について考えてみます。
中学校の確率の計算を思い出しましょう。
10回連続して表が出る確率は、1回表が出る確率(1/2)を10回掛け合わせることで求められます。
(1/2)×(1/2)×(1/2)×(1/2)×……=(1/2)10=1/1024≒0.000976
ですね。
まぁだいたい1/1000以下と考えていいでしょう。
なんとなくの感覚ですが、千分の一以下というと、結構まれなことのような気がしますね。
こんな「表が連続して10回出る」なんてことが目の前で起きたら、コインに細工がしてあることを疑ってしまいます。
表か裏が10回連続で出る場合
ここで逆のことが起こった場合(つまり裏が10回連続して出た場合)も考えます。
10回連続して裏が出る確率も、同じように
(1/2)10=1/1024
となります。
ですので、10回連続して表、または裏が出る確率は、
1/1024+1/1024=2/1024≒0.002
だいたい2/1000以下、千回に2回以下となります。これでもかなりまれな気がしますね。
そして上記で計算した確率が統計でいうところのp値です。論文では、これをp=0.002と表現します。
10回コインを投げて10回連続して表または裏が出ることは、同じことを1000回繰り返したとき、2回くらい起こると予想される、という意味です。
(なお、表と裏の両方を考えるのは、どちらの方が出やすい細工がされていると疑われるのか、コインを投げ始めるまではわからないためです。)
こんな結果が出ると、やっぱりコインに何かイカサマが仕込まれているのでは……と疑ってしまいますね。
10回投げて表か裏が8回出た場合
では、10回投げて表か裏が8回出た場合はどうでしょう。
今度は高校の数学を思い出してみましょう。
(10C8×2)÷210=90/1024≒0.088
となりますね。
だいたい90/1000以下(割り算して正確に言えば約88/1000)、千回に90回以下となります。
う~ん、意見が分かれるところですが、確率が9%弱なら、さすがにまれという感じはせず、たまにはあり得るかなぁと思います。
そしてこの確率が、統計でいうところのp値でした。論文では、これをp=0.088と表現します。
10回コインを投げて8回連続して表または裏が出ることは、同じことを1000回繰り返したとき、約8.8回起こると予想される、という意味です。
このように、10回コインを投げて8回表か裏が出る程度のことなら、「偶然のいたずら」と説明しても許される気がします。
p値がどのくらいの値を取るときまで「偶然のいたずら」として済ますのか、の基準を「α水準」と言います。
この記事の前半で説明したことを、覚えていますか?
でしたね。
統計では、あらかじめこのα水準を決めておいて、それより大きいか小さいかで、「偶然のいたずら」かどうかを決めるわけです。
医療分野の論文だと、慣習的にα=0.05としていることが多いのでしたね。
このコインを10回投げて8回連続して表または裏が出ることを仮説検定をしてみましょう。
のでした。
つまり、「『表の出る確率と裏の出る確率に差がない』とする帰無仮説を立て、さらにそれを『棄却する』」ことができれば、「表の出る確率と裏の出る確率に差がある」ことの証明になります。
今回のp値はp=0.088で、α=0.05でしたね。
p>αとなり有意水準を超えないため、帰無仮説を棄却できません。
ですので、「表の出る確率と裏の出る確率に差がある」ことが証明されず、この少し偏った結果は「偶然のいたずら」の範疇におさまることになります。
先程、「コインの表と裏の両方の確率を考えるのは、どちらの方が出やすい細工がされていると疑われるのか、コインを投げ始めるまではわからないため」と説明しました。
これを研究の話に持ってくると、新しい治療介入Iと既存の治療介入Cのどちらにより効果があるか、事前には分からないことが多い、となります。
なので同じように、両側のどちらかにまれなことが起きるかをみる必要があります。
このような手法を両側有意検定といいます。
デスゲームに参加してみよう
先程、10回コインを投げて8回表か裏が出る程度のことなら、「偶然のいたずら」と説明しても許されるという話をしました。
しかし、それが、こんな漫画のような状況だったらどうでしょう。
ちょっと目をつぶって、脳内でシミュレーションしてみて下さい。
あなたは諸事情により、どこぞの黒幕が仕組んだデスゲームに参加することになりました。
会場のモニターに映し出された、いかにも悪の富豪っぽい雰囲気の黒幕の人物は、変声機を通した声で、こんな言葉を告げます。
「君たちには今からゲームをしてもらう。なぁにやり方は簡単だ。
表と裏、50%ずつの確率で出るコインを10回投げるだけ。
表が出れば1回ごとに1000万円が報酬として与えられ、裏が出れば1回ごとに1000万円借金を背負うことになる」
なんだかザワ……ザワ……してきましたね。
さて、こんなとき、あなたの投げたコインが、表が2回、裏が8回だったらどうでしょう。
2000万円もらって8000万円の借金を背負うので、差し引き6000万円の借金です。
「こ……こんなのイカサマだ!」
と叫びたくなりませんか?
もしかすると、品行方正なあなたは声を荒らげたりはしないかもしれません。
しかしその分冷静なあなたも、やはりイカサマ、つまりは「表と裏の出かたが偶然のいたずらではない」ことを疑うのではないでしょうか。
このように、有意水準というのは、本当に主観的なものなのです。
もしかすると、このときのあなたにとってのαは10%(α=0.1)かもしれません。
p=0.088なので、α=0.1であれば、有意水準を超えるので、帰無仮説は棄却できます。
つまり、「表の出る確率と裏の出る確率に差がある」ことの証明になります。
「えっそんなことしていいの!?」
と思ったそこのあなた。正解です。そんなことをしてはいけません。
これでは後出しジャンケンみたいなものです。それこそイカサマ以外の何ものでもないことは、みなさんもご存知ですよね。
つまるところ、有意水準は、後から決めてはいけないということです。
検定というのは、結果を見てから解釈を変えてはいけないのです。
あらかじめ、どのようなα水準の値が適切なのか、しっかり考えておく必要があります。
仮説検定は、結果を見てから解釈を変えてはいけない
この記事を読んで、もしもあなたが、
「帰無仮説を棄却するカットオフは恣意的に選んだ値なのに、単一のカットオフを使うのはおかしくない……?」
あるいは最初の治療介入試験のことに当てはめて、
「そもそもどうして治療が効果的かという疑問を、アリ/ナシという2択で決定してしまうの……?」
……と考え出しているとしたら、あなたはもう、統計学の素人ではありません。
ようこそ統計学の世界へ!(笑)
なお、この疑問に少しだけヒントを書くと、本来治療の効果は連続体(例えば効果のある可能性が非常に低い〜ほぼ確実に効果があるまでの連続体)としてと捉える方が正しいです。
また、これを見るために95%信頼区間があります。
さすがに長くなりすぎてしまうので、95%信頼区間に関しては、また要望があれば別記事にしようと思います。
皆様も「仮説検定」や「帰無仮説」とその「棄却」、「有意水準α」や「p値」の意味や関係が、イメージできるようになったでしょうか?
それでは、お疲れ様でした!
参考文献
JAMA evidence, 「医学文献ユーザーズガイド 根拠に基づく診療のマニュアル 第3版」
(特に具体例として第12.1章「上級編:治療試験の結果 仮説検定」の内容を参照しました)