2016年8月24日 星期三

❤得到-科技-為什麼說概率有時不靠譜

文章出處:為什麼說概率有時不靠譜


說起概率我們都不陌生,但它的真正含義你卻未必搞得懂。
比如說,天氣預報說,明天降雨的概率是30%,這是什麼意思呢?
難不成我們可以把生活倒帶重來,反覆地把明天過上100次,其中大約有30次會下雨嗎?
又比如,體檢結果表明,某人換上肝癌的可能性是70%,這又是什麼意思呢?
得了就得了,沒得就沒得,70%的可能性患病,這到底是得了還是沒得呢?

你可能會說:這大概是氣象局和醫生在描述對事情發生的信心吧。
比如氣象局想說的是,對於明天會下雨這件事,數據帶給我們的信心不足;
而醫生想說的是,根據體檢結果,我們對這人得了肝癌還是挺有把握的。

但再想想你就會覺得不對,作為權威的氣象局或者醫生,
既然都已經給出一個具體的數字了,肯定是有原因的呀?
沒錯,對於個人的健康啊或者俱體某一天的天氣啊這類的,
只能通過過去有限的測量來推測它們發生的概率,這種分析概率的方法叫做貝葉斯分析

最近,科普達人卓老闆卓克,在“卓老闆聊科技”專欄裡,
就跟大家詳細介紹了這種方法,它不僅對預測生活中的各種事情有重要的意義,
有時還十分出人意料,我來給您講講。


什麼叫做通過過去的測量來推測事情發生的概率呢?
比如,如果人得了肝癌,在一些身體指標上就會有異常。
貝葉斯分析,就會通過各種測量本身的概率,
比如如果這人指標有異常了,儀器測出來的概率是多少,測不出來的概率又是多少,
儀器誤測出異常的概率又是多少,等等這些間接的知識,來綜合分析一個人患病的概率。

這種稱為貝葉斯分析的方法,數學形式非常複雜
但我給您舉個例子,會有助於您的理解。
比如如果人得了肝癌,有一項指標會呈陽性,通過測量這項指標,
就知道這人是不是有肝癌了。但是即使是正常人,醫學上也有0.1%​​的可能性被誤測成陽性,
而真的肝癌患者,這項指標也有1%的可能性誤測成陰性。
那麼,如果現在有一個人做篩查的結果是陽性,你覺得他患有肝癌的可能性是多少?

你可能會覺得,這測量準確率都99.9%了,誤測幾乎可以忽略不計了吧?
所以你覺得這人肯定有肝癌了對不對?但我們用貝葉斯分析算一下,
實際上,肝癌在人群中的發病率大約是每10000個人中有4個,
如果這10000人全都去做篩查,那麼其中的9996個正常人,
會有9到10個人因為誤測而體現出陽性,咱們就算10個吧;
而那4個真的有肝癌的人,由於人數太少,誤測忽略不計,就算4人全測出陽性吧。
所以在10000個人中,總共還會有14個人會被查出陽性,而其中10個人是因為誤測導致的。
這麼算下來,一個查出是陽性的人,真正是肝癌患者的可能性是4除以14,還不到30%。

你看,這篩查的正確性都到了99%以上了,通過體檢判斷有沒有得病的概率卻還不到三成。同樣的例子還有艾滋病,
如果一個人的艾滋病檢測結果呈陽性,考慮到儀器誤測和艾滋病的人群發​​病率,
那麼通過貝葉斯分析,這人真正患有艾滋病的可能性大約是50%,可能有也可能沒有。


你可能會說,再也不相信那些吹的天花亂墜的技術了,說好了篩查準確率那麼高,
結果篩查的結果對於確診疾病一點用都沒有,這還要醫學技術幹什麼?
沒錯,這就是貝葉斯分析告訴我們的。
再拿肝癌做例子吧,由於發生肝癌實在是小概率事件,
所以當我們對一大群人做肝癌篩查時,雖說準確率有99%,
但仍然會有相當一部分人因為誤測而被診斷為肝癌,
這一部分人在人群中的數目甚至比真正肝癌患者的數目還要高。

你肯定要問了,那該怎樣糾正測量帶來的這麼高的誤診呢?
剛剛我們也說了,造成這麼不靠譜的誤診的原因,
是我們無差別地給一大群人做篩查,而不論測量準確率有多高,
因為正常人的數目遠大於實際的患者,所以誤測造成的干擾就非常大了。


解決的辦法也很簡單,就是是鎖定可疑的樣本,
比如10000人中檢查出現問題的那14個人,再獨立重複檢測一次,
因為正常人連續兩次體檢都出現誤測的概率極低,
這時篩選出真正患者的準確率就很高了,
這也是為什麼許多疾病的檢測,往往還要送交獨立機構多次檢查的原因。


你看,我們平時都覺得很奇怪,說很多像醫院這樣的權威機構,
按理說它們給出的數據肯定沒問題,不會錯,為什麼還總是出現偏差呢?
知道了貝葉斯分析這種方法後,你就會發現,概率有時候是不靠譜的,
或者說,概率是有局限性的。
只有利用更科學的統計分析方法,才能最大程度地避免誤判帶來的影響。


本文源自:“得到”App訂閱專欄“卓老闆聊科技”
稿:李程遠 澳大利亞麥考瑞大學學者
轉載:得到

--------
主旨:
貝葉斯分析,就會通過各種測量本身的概率,
比如如果這人指標有異常了,儀器測出來的概率是多少,測不出來的概率又是多少,
儀器誤測出異常的概率又是多少,等等這些間接的知識,來綜合分析一個人患病的概率。
這種稱為貝葉斯分析的方法,數學形式非常複雜,
但我給您舉個例子,會有助於您的理解。
比如如果人得了肝癌,有一項指標會呈陽性,通過測量這項指標,
就知道這人是不是有肝癌了。
但是即使是正常人,醫學上也有0.1%​​的可能性被誤測成陽性,
而真的肝癌患者,這項指標也有1%的可能性誤測成陰性。
那麼,如果現在有一個人做篩查的結果是陽性,你覺得他患有肝癌的可能性是多少?

你可能會覺得,這測量準確率都99.9%了,誤測幾乎可以忽略不計了吧?
所以你覺得這人肯定有肝癌了對不對?但我們用貝葉斯分析算一下,
實際上,肝癌在人群中的發病率大約是每10000個人中有4個,
如果這10000人全都去做篩查,那麼其中的9996個正常人,
會有9到10個人因為誤測而體現出陽性,咱們就算10個吧;
而那4個真的有肝癌的人,由於人數太少,誤測忽略不計,就算4人全測出陽性吧。
所以在10000個人中,總共還會有14個人會被查出陽性,而其中10個人是因為誤測導致的。
這麼算下來,一個查出是陽性的人,真正是肝癌患者的可能性是4除以14,還不到30%。
你看,這篩查的正確性都到了99%以上了,通過體檢判斷有沒有得病的概率卻還不到三成。
這也是為什麼許多疾病的檢測,往往還要送交獨立機構多次檢查的原因。

沒有留言:

張貼留言