はじめに
筆者は、実益をかねてますが、趣味として数学と統計の学習をしています。
あまり多くの時間を割くことが難しいのですが、それでものろのろと進めており、2021年11月の統計学検定を目標としています。「実益」といったのは、先にデータサイエンティストがあると考えているからなのですが、Python、RやSQL等の習得もしないといけないようなので、「実益」はずいぶん先にあると思います笑
この記事を書いてみたいと思った理由は、「ベイズの定理」というものを学習するところで、「病気の検査って完璧でないとあまり意味ないんちゃうん?」と思ったからですが、高度に物事を進めたところの議論は知らないので、この記事を読んでいただいている方にも、「確率ではそんなふうに捉えられるのか…」といった程度ぐらいで軽く読んでいただけたらと思います。下記の問題では、現実の数字を全く考慮していない、空想の話になります。
また、昨今の感染症の議論と結びつけないようよろしくお願いいたしますm(_ _)m
前提
病気にかかっているかどうかの検査を行います。
検査は、完璧なものではなく、本当にかかっていれば99.5%で陽性反応を示し(逆に0.5%は見逃します)、かかっていなくても1.0%で陽性反応を示すというものです。
また、この病気には1000人に1人(0.1%)がかかっているとされています。
問題
あなたが検査を受けて、「陽性」という結果になりました。あなたが本当にその病気になっている確率はどれぐらいでしょうか。
答え
↓↓↓↓↓↓↓↓↓↓
約9.1%です。
計算式は、分子が99.5%×0.1%、分母が99.5%×0.1% + 1%×99.9%となります。
陽性になったけど病気になってないやん(現実は知らないですが、こんな検査は導入されないでしょう…)という結果と受け取れます。
計算上重要な要素となるのは、検査の精度だけでなく、「1000人のうち一人」です。検査の精度は同じものとして、200人の一人の病気のときは、33.3%、100人の一人の病気のときは、約50%となります。多くの人がかかる病気だと確率があがります(この確率では数度の検査を受けなきゃならないのでは…)。このように、多くの人が罹患する病気だから、検査の精度があがるだろう思えますが、計算上で大きな影響を及ぼします。
計算式を見ると、分母を大きくする要因は、「かかっていなくても1.0%で陽性反応を示す」です。正しく陽性を示す確率を上げて、偽陽性の確率を下げる、要は、検査の精度も当然に上げなければならないということもわかります。
陽性、陰性を示す検査の確率なんて意識したことがなかったのですが、少し意識してみようかな、なんて考えた一瞬でした。