文章出處:大數據在什麼情況下不靠譜
現在大數據離生活越來越近,我們也越來越依賴大數據做決策。
但前幾天看到一篇文章,它就說,大數據這東西看起來挺好,但有時也會誤導我們。
這可不是說大數據本身有什麼問題啊,它是沒問題的,有問題的是我們採集數據的方式。
一旦這個過程出了問題,大數據就反而會幫我們的倒忙。
那採集數據的時候究竟可能會出什麼錯誤呢?下面咱們來具體說說。
第一種錯誤叫選擇誤差,如果選擇的樣本不平均,就會出現這類錯誤。
比如說,美國大選前都要做民意測試,
但根據這種方式預測的結果並不準確,因為測試的方式有問題,
調查民意時需要選民支付30美元才能參與,能來支付這筆錢的人也許是熱衷政治,
也許是中產階級,總之不能代表平均水平。
這類錯誤還有很多其他案例,
比如說在機場做消費問卷調查就可能有偏差,因為坐飛機的人相對來講比一般人更富裕些。
所以說,一旦選擇的樣本出錯,那得出的結論肯定有問題。
第二種錯誤叫倖存者誤差,
就是說,選擇的樣本裡有過高或者過低數據,那得出的結論就會有問題。
打個簡單的比方,一個屋子裡如果坐著姚明,那屋子裡人的平均身高肯定就會偏高嘛。
美國的一所大學曾經有個報告,
說他們學校地理系的畢業生平均年收入水平最高,這就很讓人費解了,
因為地理系不是這個學校的熱門專業,也不是社會上的高薪職業,
怎麼會出現這樣的結果呢?
原來啊,這是因為,NBA超級球星喬丹就是這家學校地理系畢業的,
他一個人就拉高了整個學校的平均水平。
所以,為了避免出現這種倖存者誤差,
有時候做統計往往要去掉一個最高分,去掉一個最低分,
再把平均下來的分數作為最終得分。
第三種錯誤叫回憶誤差。什麼意思呢?
就是說,你選擇的數據樣本,會受到大腦回憶的影響,從而產生誤差。
這個誤差的形成完全是心理作用,我們都願意將現狀理解為過去發生的必然結果,
就是喜歡把現狀和過去用因果關係對應上,尤其是對一些特別糟或者特別好的情況。
比如說,哈佛大學曾經做了一個心理實驗,
找來一組患有乳腺癌的女性,還有一組健康的女性,讓她們共同回憶自己早年的飲食習慣。
結果發現,那些患病的女性回憶過去的時候,
覺得自己攝入的脂肪含量比實際上要高很大一截,但健康女性那組就沒出現這種情況。
這就是回憶誤差。如果你根據這個研究得出結論:
患乳腺癌的婦女在年輕的時候攝入了太多的脂肪。那就太荒謬了。
第四種錯誤叫健康用戶誤差,
這個說法源於一個邏輯比喻,就是每天按時吃維生素片的人身體更健康,
但並不代表吃維生素這個舉動,就可以完全決定一個人是否健康。
比如說曾經有個研究證明,幼年時期穿紫色睡衣的孩子,長大後成才的概率更高,
98%的哈佛畢業生在小時候都穿過紫色睡衣,因為紫色更有助於幼兒大腦發育。
這種說法聽起來很有道理,數據看起來也無法反駁,
但事實上犯了健康用戶誤差這個錯誤,最終能決定一個人成功的因素多種多樣,
年幼穿紫色睡衣可能只是其中很小的一個。
如果你逃過了以上四個錯誤,還有第五個最不容易察覺的在等著你,叫發表錯誤。
以上那些都是我們在選擇數據樣本或者數據分析時容易犯的毛病,
而最後一個卻跟發表研究成果的“潛規則”有點關係。
從認知角度講,人們更喜歡正面的結果,所以傳播領域也傾向於發表這樣的東西。
比如說醫學界研究玩遊戲和患結腸癌之間的關係,
抽樣調查了100個數據,前99個數據都是沒什麼關係,
但有一個數據顯示可能有點聯繫,
從傳播的角度來看,99個沒有關係的數據沒什麼可吸引眼球的,
但如果說玩遊戲可以在一定程度上預防結腸癌,相信會有更多人願意看到。
所以說,發表錯誤的問題不在於數據本身,
而是你向公眾傳達的時候會以偏概全,
這也是為什麼現在打開網頁滿屏幕都是標題黨的原因了。
你看,總的來說,數據沒有錯,錯的是我們採集和對待數據的方式。
只有正確抓取和利用數據的人,才能通過它們提供的各種線索,接觸到事物的本質和真相。
本文源自:微口網(數據不會說謊,說謊的是採集數據的方式)
稿:張帥冰
來源:得到
現在大數據離生活越來越近,我們也越來越依賴大數據做決策。
但前幾天看到一篇文章,它就說,大數據這東西看起來挺好,但有時也會誤導我們。
這可不是說大數據本身有什麼問題啊,它是沒問題的,有問題的是我們採集數據的方式。
一旦這個過程出了問題,大數據就反而會幫我們的倒忙。
那採集數據的時候究竟可能會出什麼錯誤呢?下面咱們來具體說說。
第一種錯誤叫選擇誤差,如果選擇的樣本不平均,就會出現這類錯誤。
比如說,美國大選前都要做民意測試,
但根據這種方式預測的結果並不準確,因為測試的方式有問題,
調查民意時需要選民支付30美元才能參與,能來支付這筆錢的人也許是熱衷政治,
也許是中產階級,總之不能代表平均水平。
這類錯誤還有很多其他案例,
比如說在機場做消費問卷調查就可能有偏差,因為坐飛機的人相對來講比一般人更富裕些。
所以說,一旦選擇的樣本出錯,那得出的結論肯定有問題。
第二種錯誤叫倖存者誤差,
就是說,選擇的樣本裡有過高或者過低數據,那得出的結論就會有問題。
打個簡單的比方,一個屋子裡如果坐著姚明,那屋子裡人的平均身高肯定就會偏高嘛。
美國的一所大學曾經有個報告,
說他們學校地理系的畢業生平均年收入水平最高,這就很讓人費解了,
因為地理系不是這個學校的熱門專業,也不是社會上的高薪職業,
怎麼會出現這樣的結果呢?
原來啊,這是因為,NBA超級球星喬丹就是這家學校地理系畢業的,
他一個人就拉高了整個學校的平均水平。
所以,為了避免出現這種倖存者誤差,
有時候做統計往往要去掉一個最高分,去掉一個最低分,
再把平均下來的分數作為最終得分。
第三種錯誤叫回憶誤差。什麼意思呢?
就是說,你選擇的數據樣本,會受到大腦回憶的影響,從而產生誤差。
這個誤差的形成完全是心理作用,我們都願意將現狀理解為過去發生的必然結果,
就是喜歡把現狀和過去用因果關係對應上,尤其是對一些特別糟或者特別好的情況。
比如說,哈佛大學曾經做了一個心理實驗,
找來一組患有乳腺癌的女性,還有一組健康的女性,讓她們共同回憶自己早年的飲食習慣。
結果發現,那些患病的女性回憶過去的時候,
覺得自己攝入的脂肪含量比實際上要高很大一截,但健康女性那組就沒出現這種情況。
這就是回憶誤差。如果你根據這個研究得出結論:
患乳腺癌的婦女在年輕的時候攝入了太多的脂肪。那就太荒謬了。
第四種錯誤叫健康用戶誤差,
這個說法源於一個邏輯比喻,就是每天按時吃維生素片的人身體更健康,
但並不代表吃維生素這個舉動,就可以完全決定一個人是否健康。
比如說曾經有個研究證明,幼年時期穿紫色睡衣的孩子,長大後成才的概率更高,
98%的哈佛畢業生在小時候都穿過紫色睡衣,因為紫色更有助於幼兒大腦發育。
這種說法聽起來很有道理,數據看起來也無法反駁,
但事實上犯了健康用戶誤差這個錯誤,最終能決定一個人成功的因素多種多樣,
年幼穿紫色睡衣可能只是其中很小的一個。
如果你逃過了以上四個錯誤,還有第五個最不容易察覺的在等著你,叫發表錯誤。
以上那些都是我們在選擇數據樣本或者數據分析時容易犯的毛病,
而最後一個卻跟發表研究成果的“潛規則”有點關係。
從認知角度講,人們更喜歡正面的結果,所以傳播領域也傾向於發表這樣的東西。
比如說醫學界研究玩遊戲和患結腸癌之間的關係,
抽樣調查了100個數據,前99個數據都是沒什麼關係,
但有一個數據顯示可能有點聯繫,
從傳播的角度來看,99個沒有關係的數據沒什麼可吸引眼球的,
但如果說玩遊戲可以在一定程度上預防結腸癌,相信會有更多人願意看到。
所以說,發表錯誤的問題不在於數據本身,
而是你向公眾傳達的時候會以偏概全,
這也是為什麼現在打開網頁滿屏幕都是標題黨的原因了。
你看,總的來說,數據沒有錯,錯的是我們採集和對待數據的方式。
只有正確抓取和利用數據的人,才能通過它們提供的各種線索,接觸到事物的本質和真相。
本文源自:微口網(數據不會說謊,說謊的是採集數據的方式)
稿:張帥冰
來源:得到
沒有留言:
張貼留言