2016年3月26日 星期六

❤得到-科技-不要讓大數據主宰我們的生活

文章出處:不要讓大數據主宰我們的生活


前兩年,有本書叫《大數據時代》風靡世界,作者在書裡提出了大數據的三大思維,
一是要全集不要採樣,二是要混雜不要精確,三是要相關性不要因果性。
前英特爾中國研究院院長吳甘沙,
在混沌研習社進行了一次演講,對上面三大思維進行了反思,提出了以下三個觀點。


第一,不是說數據越多預測就越準確。
傳統採樣是這麼做的,一萬個樣本,我選一百個來處理,
這樣做,處理數據的速度就變快了,但有些重要的數據可能我們採不到。
所以《大數據時代》這本書裡才說,要全集不要採樣。
但今天每個公司都有自己的數據,所以想要拿到所有的數據基本上很難。
另外,如果真的採集到了所有的數據,投入是非常高的,但是產出卻沒那麼大。
大數據就像一個貧礦,價值密度很低,如果沒把握,最好不要採集全部數據。

第二,吳甘沙說,如果數據沒有辨識度,就沒有意義
 《大數據時代》說,要混雜的數據,不要精確的數據,
因為現實中的數據都是混在一起的,所以沒辦法避免混雜。
確實,混雜性是客觀存在的,但不一定就是我們需要的。
因為數據的價值,就在於它的真實性、辨識度和準確性。
所以,數據的質量依然非常重要。如果沒有辨識度,這個數據就沒有意義了。

舉個例子,我們上網的時候,瀏覽過什麼網頁,都會被記錄下來。
但過了兩個月,我的網頁改版了,這些信息就沒有用了,
這些缺乏辨識度的數據就應該扔掉了。

再舉個例子,谷歌曾經用搜索來預測流感,
因為谷歌發現,
如果一個地方很多人都在搜索“流感”這個詞的時候,這個地方很可能正在發生流感。
所以,根據流感的搜索次數,谷歌就能知道哪裡發生流感了。
但後​​來谷歌的很多預測都是不準確的,有些沒發生流感的地方,也被預測得了流感。
這是因為,那些搜索流感的人,不一定就得了流感。
就算是去醫院看流感的人,大部分也都沒得流感,谷歌的預測就不準了。
所以,谷歌這個預測失敗的原因之一,就是混雜性很高
因為有了“發燒、打噴嚏”這樣的數據,不代表一個人得了流感,這麼測就是不准的。


第三,《大數據時代》說,有了大數據思維,只需要相關性,就不需要因果性了。
吳甘沙認為,不能讓這種相關性主宰我們的生活。
今天很多人都覺得,我們知道是什麼就行了,不用知道為什麼。
比如,啤酒和尿布放在一起賣,賣得很好,但為什麼賣得好,
你用不著知道,直接放一起賣就行了。
還有人說,男人一看球,女人就網購,這也是一種相關性,
你也不用知道為什麼,營銷上直接利用這一點就是了。

其實,如果只是根據表面的相關性,得出一個結論,是有問題的。
舉個例子,美國印地安納州,是美國肺癌死亡率最高的州。
你馬上就會覺得,這個地方空氣肯定不好。
其實,這裡空氣特別好,就是因為空氣太好了,
所以很多肺癌病人都搬到那裡了,而且都死在那裡,於是就有了這樣的數據。
如果你不明就裡,拿著空氣淨化器跑來推銷,很明顯會失敗。
所以,你必須了解數據背後的因果性。

以上就是吳甘沙對大數據的三個反思。


本文源自:前Intel中國研究院院長吳甘沙:不要讓大數據的相關性主宰我們的生活
稿:安迪
轉載:得到

---------
主旨:
1. 不是說數據越多預測就越準確
 大數據就像一個貧礦,價值密度很低,如果沒把握,最好不要採集全部數據。
2. 數據的質量非常重要
 如果沒有辨識度,這個數據就沒有意義
3. 只需要相關性,就不需要因果性
 舉例說明(錯誤的因果關係):
 美國印地安納州,是美國肺癌死亡率最高的州。
 人馬上就會覺得,這個地方空氣肯定不好。
 其實,這裡空氣特別好,就是因為空氣太好了,所以很多肺癌病人都搬到那裡了,
 而且都死在那裡,於是就有了這樣的數據。
 如果不明就裡,拿著空氣淨化器跑來推銷,很明顯會失敗。
 所以,必須了解數據背後的因果性。

沒有留言:

張貼留言