知識新聞: ❤得到－科技－為什麼說概率有時不靠譜

2016年8月24日星期三

❤得到－科技－為什麼說概率有時不靠譜

文章出處：為什麼說概率有時不靠譜

說起概率我們都不陌生，但它的真正含義你卻未必搞得懂。
比如說，天氣預報說，明天降雨的概率是30%，這是什麼意思呢？
難不成我們可以把生活倒帶重來，反覆地把明天過上100次，其中大約有30次會下雨嗎？
又比如，體檢結果表明，某人換上肝癌的可能性是70%，這又是什麼意思呢？
得了就得了，沒得就沒得，70%的可能性患病，這到底是得了還是沒得呢？

你可能會說：這大概是氣象局和醫生在描述對事情發生的信心吧。
比如氣象局想說的是，對於明天會下雨這件事，數據帶給我們的信心不足；
而醫生想說的是，根據體檢結果，我們對這人得了肝癌還是挺有把握的。

但再想想你就會覺得不對，作為權威的氣象局或者醫生，
既然都已經給出一個具體的數字了，肯定是有原因的呀？
沒錯，對於個人的健康啊或者俱體某一天的天氣啊這類的，
只能通過過去有限的測量來推測它們發生的概率，這種分析概率的方法叫做貝葉斯分析。

最近，科普達人卓老闆卓克，在“卓老闆聊科技”專欄裡，
就跟大家詳細介紹了這種方法，它不僅對預測生活中的各種事情有重要的意義，
有時還十分出人意料，我來給您講講。

什麼叫做通過過去的測量來推測事情發生的概率呢？
比如，如果人得了肝癌，在一些身體指標上就會有異常。
而貝葉斯分析，就會通過各種測量本身的概率，
比如如果這人指標有異常了，儀器測出來的概率是多少，測不出來的概率又是多少，
儀器誤測出異常的概率又是多少，等等這些間接的知識，來綜合分析一個人患病的概率。

這種稱為貝葉斯分析的方法，數學形式非常複雜，
但我給您舉個例子，會有助於您的理解。
比如如果人得了肝癌，有一項指標會呈陽性，通過測量這項指標，
就知道這人是不是有肝癌了。但是即使是正常人，醫學上也有0.1%的可能性被誤測成陽性，
而真的肝癌患者，這項指標也有1%的可能性誤測成陰性。
那麼，如果現在有一個人做篩查的結果是陽性，你覺得他患有肝癌的可能性是多少？

你可能會覺得，這測量準確率都99.9%了，誤測幾乎可以忽略不計了吧？
所以你覺得這人肯定有肝癌了對不對？但我們用貝葉斯分析算一下，
實際上，肝癌在人群中的發病率大約是每10000個人中有4個，
如果這10000人全都去做篩查，那麼其中的9996個正常人，
會有9到10個人因為誤測而體現出陽性，咱們就算10個吧；
而那4個真的有肝癌的人，由於人數太少，誤測忽略不計，就算4人全測出陽性吧。
所以在10000個人中，總共還會有14個人會被查出陽性，而其中10個人是因為誤測導致的。
這麼算下來，一個查出是陽性的人，真正是肝癌患者的可能性是4除以14，還不到30%。

你看，這篩查的正確性都到了99%以上了，通過體檢判斷有沒有得病的概率卻還不到三成。同樣的例子還有艾滋病，
如果一個人的艾滋病檢測結果呈陽性，考慮到儀器誤測和艾滋病的人群發病率，
那麼通過貝葉斯分析，這人真正患有艾滋病的可能性大約是50%，可能有也可能沒有。

你可能會說，再也不相信那些吹的天花亂墜的技術了，說好了篩查準確率那麼高，
結果篩查的結果對於確診疾病一點用都沒有，這還要醫學技術幹什麼？
沒錯，這就是貝葉斯分析告訴我們的。
再拿肝癌做例子吧，由於發生肝癌實在是小概率事件，
所以當我們對一大群人做肝癌篩查時，雖說準確率有99%，
但仍然會有相當一部分人因為誤測而被診斷為肝癌，
這一部分人在人群中的數目甚至比真正肝癌患者的數目還要高。

你肯定要問了，那該怎樣糾正測量帶來的這麼高的誤診呢？
剛剛我們也說了，造成這麼不靠譜的誤診的原因，
是我們無差別地給一大群人做篩查，而不論測量準確率有多高，
因為正常人的數目遠大於實際的患者，所以誤測造成的干擾就非常大了。

解決的辦法也很簡單，就是是鎖定可疑的樣本，
比如10000人中檢查出現問題的那14個人，再獨立重複檢測一次，
因為正常人連續兩次體檢都出現誤測的概率極低，
這時篩選出真正患者的準確率就很高了，
這也是為什麼許多疾病的檢測，往往還要送交獨立機構多次檢查的原因。

你看，我們平時都覺得很奇怪，說很多像醫院這樣的權威機構，
按理說它們給出的數據肯定沒問題，不會錯，為什麼還總是出現偏差呢？
知道了貝葉斯分析這種方法後，你就會發現，概率有時候是不靠譜的，
或者說，概率是有局限性的。
只有利用更科學的統計分析方法，才能最大程度地避免誤判帶來的影響。

本文源自：“得到”App訂閱專欄“卓老闆聊科技”
稿：李程遠澳大利亞麥考瑞大學學者
轉載:得到

--------
主旨：
貝葉斯分析，就會通過各種測量本身的概率，
比如如果這人指標有異常了，儀器測出來的概率是多少，測不出來的概率又是多少，
儀器誤測出異常的概率又是多少，等等這些間接的知識，來綜合分析一個人患病的概率。
這種稱為貝葉斯分析的方法，數學形式非常複雜，
但我給您舉個例子，會有助於您的理解。
比如如果人得了肝癌，有一項指標會呈陽性，通過測量這項指標，
就知道這人是不是有肝癌了。
但是即使是正常人，醫學上也有0.1%的可能性被誤測成陽性，
而真的肝癌患者，這項指標也有1%的可能性誤測成陰性。
那麼，如果現在有一個人做篩查的結果是陽性，你覺得他患有肝癌的可能性是多少？

你可能會覺得，這測量準確率都99.9%了，誤測幾乎可以忽略不計了吧？
所以你覺得這人肯定有肝癌了對不對？但我們用貝葉斯分析算一下，
實際上，肝癌在人群中的發病率大約是每10000個人中有4個，
如果這10000人全都去做篩查，那麼其中的9996個正常人，
會有9到10個人因為誤測而體現出陽性，咱們就算10個吧；
而那4個真的有肝癌的人，由於人數太少，誤測忽略不計，就算4人全測出陽性吧。
所以在10000個人中，總共還會有14個人會被查出陽性，而其中10個人是因為誤測導致的。
這麼算下來，一個查出是陽性的人，真正是肝癌患者的可能性是4除以14，還不到30%。
你看，這篩查的正確性都到了99%以上了，通過體檢判斷有沒有得病的概率卻還不到三成。
這也是為什麼許多疾病的檢測，往往還要送交獨立機構多次檢查的原因。

知識新聞

2016年8月24日星期三

❤得到－科技－為什麼說概率有時不靠譜

沒有留言:

張貼留言

2016年8月24日 星期三

❤得到－科技－為什麼說概率有時不靠譜

沒有留言:

張貼留言

2016年8月24日星期三