文章出處:不要讓大數據主宰我們的生活
前兩年,有本書叫《大數據時代》風靡世界,作者在書裡提出了大數據的三大思維,
一是要全集不要採樣,二是要混雜不要精確,三是要相關性不要因果性。
前英特爾中國研究院院長吳甘沙,
在混沌研習社進行了一次演講,對上面三大思維進行了反思,提出了以下三個觀點。
第一,不是說數據越多預測就越準確。
傳統採樣是這麼做的,一萬個樣本,我選一百個來處理,
這樣做,處理數據的速度就變快了,但有些重要的數據可能我們採不到。
所以《大數據時代》這本書裡才說,要全集不要採樣。
但今天每個公司都有自己的數據,所以想要拿到所有的數據基本上很難。
另外,如果真的採集到了所有的數據,投入是非常高的,但是產出卻沒那麼大。
大數據就像一個貧礦,價值密度很低,如果沒把握,最好不要採集全部數據。
第二,吳甘沙說,如果數據沒有辨識度,就沒有意義。
《大數據時代》說,要混雜的數據,不要精確的數據,
因為現實中的數據都是混在一起的,所以沒辦法避免混雜。
確實,混雜性是客觀存在的,但不一定就是我們需要的。
因為數據的價值,就在於它的真實性、辨識度和準確性。
所以,數據的質量依然非常重要。如果沒有辨識度,這個數據就沒有意義了。
舉個例子,我們上網的時候,瀏覽過什麼網頁,都會被記錄下來。
但過了兩個月,我的網頁改版了,這些信息就沒有用了,
這些缺乏辨識度的數據就應該扔掉了。
再舉個例子,谷歌曾經用搜索來預測流感,
因為谷歌發現,
如果一個地方很多人都在搜索“流感”這個詞的時候,這個地方很可能正在發生流感。
所以,根據流感的搜索次數,谷歌就能知道哪裡發生流感了。
但後來谷歌的很多預測都是不準確的,有些沒發生流感的地方,也被預測得了流感。
這是因為,那些搜索流感的人,不一定就得了流感。
就算是去醫院看流感的人,大部分也都沒得流感,谷歌的預測就不準了。
所以,谷歌這個預測失敗的原因之一,就是混雜性很高,
因為有了“發燒、打噴嚏”這樣的數據,不代表一個人得了流感,這麼測就是不准的。
第三,《大數據時代》說,有了大數據思維,只需要相關性,就不需要因果性了。
吳甘沙認為,不能讓這種相關性主宰我們的生活。
今天很多人都覺得,我們知道是什麼就行了,不用知道為什麼。
比如,啤酒和尿布放在一起賣,賣得很好,但為什麼賣得好,
你用不著知道,直接放一起賣就行了。
還有人說,男人一看球,女人就網購,這也是一種相關性,
你也不用知道為什麼,營銷上直接利用這一點就是了。
其實,如果只是根據表面的相關性,得出一個結論,是有問題的。
舉個例子,美國印地安納州,是美國肺癌死亡率最高的州。
你馬上就會覺得,這個地方空氣肯定不好。
其實,這裡空氣特別好,就是因為空氣太好了,
所以很多肺癌病人都搬到那裡了,而且都死在那裡,於是就有了這樣的數據。
如果你不明就裡,拿著空氣淨化器跑來推銷,很明顯會失敗。
所以,你必須了解數據背後的因果性。
以上就是吳甘沙對大數據的三個反思。
本文源自:前Intel中國研究院院長吳甘沙:不要讓大數據的相關性主宰我們的生活
稿:安迪
轉載:得到
---------
主旨:
1. 不是說數據越多預測就越準確
大數據就像一個貧礦,價值密度很低,如果沒把握,最好不要採集全部數據。
2. 數據的質量非常重要
如果沒有辨識度,這個數據就沒有意義
3. 只需要相關性,就不需要因果性
舉例說明(錯誤的因果關係):
美國印地安納州,是美國肺癌死亡率最高的州。
人馬上就會覺得,這個地方空氣肯定不好。
其實,這裡空氣特別好,就是因為空氣太好了,所以很多肺癌病人都搬到那裡了,
而且都死在那裡,於是就有了這樣的數據。
如果不明就裡,拿著空氣淨化器跑來推銷,很明顯會失敗。
所以,必須了解數據背後的因果性。
前兩年,有本書叫《大數據時代》風靡世界,作者在書裡提出了大數據的三大思維,
一是要全集不要採樣,二是要混雜不要精確,三是要相關性不要因果性。
前英特爾中國研究院院長吳甘沙,
在混沌研習社進行了一次演講,對上面三大思維進行了反思,提出了以下三個觀點。
第一,不是說數據越多預測就越準確。
傳統採樣是這麼做的,一萬個樣本,我選一百個來處理,
這樣做,處理數據的速度就變快了,但有些重要的數據可能我們採不到。
所以《大數據時代》這本書裡才說,要全集不要採樣。
但今天每個公司都有自己的數據,所以想要拿到所有的數據基本上很難。
另外,如果真的採集到了所有的數據,投入是非常高的,但是產出卻沒那麼大。
大數據就像一個貧礦,價值密度很低,如果沒把握,最好不要採集全部數據。
第二,吳甘沙說,如果數據沒有辨識度,就沒有意義。
《大數據時代》說,要混雜的數據,不要精確的數據,
因為現實中的數據都是混在一起的,所以沒辦法避免混雜。
確實,混雜性是客觀存在的,但不一定就是我們需要的。
因為數據的價值,就在於它的真實性、辨識度和準確性。
所以,數據的質量依然非常重要。如果沒有辨識度,這個數據就沒有意義了。
舉個例子,我們上網的時候,瀏覽過什麼網頁,都會被記錄下來。
但過了兩個月,我的網頁改版了,這些信息就沒有用了,
這些缺乏辨識度的數據就應該扔掉了。
再舉個例子,谷歌曾經用搜索來預測流感,
因為谷歌發現,
如果一個地方很多人都在搜索“流感”這個詞的時候,這個地方很可能正在發生流感。
所以,根據流感的搜索次數,谷歌就能知道哪裡發生流感了。
但後來谷歌的很多預測都是不準確的,有些沒發生流感的地方,也被預測得了流感。
這是因為,那些搜索流感的人,不一定就得了流感。
就算是去醫院看流感的人,大部分也都沒得流感,谷歌的預測就不準了。
所以,谷歌這個預測失敗的原因之一,就是混雜性很高,
因為有了“發燒、打噴嚏”這樣的數據,不代表一個人得了流感,這麼測就是不准的。
第三,《大數據時代》說,有了大數據思維,只需要相關性,就不需要因果性了。
吳甘沙認為,不能讓這種相關性主宰我們的生活。
今天很多人都覺得,我們知道是什麼就行了,不用知道為什麼。
比如,啤酒和尿布放在一起賣,賣得很好,但為什麼賣得好,
你用不著知道,直接放一起賣就行了。
還有人說,男人一看球,女人就網購,這也是一種相關性,
你也不用知道為什麼,營銷上直接利用這一點就是了。
其實,如果只是根據表面的相關性,得出一個結論,是有問題的。
舉個例子,美國印地安納州,是美國肺癌死亡率最高的州。
你馬上就會覺得,這個地方空氣肯定不好。
其實,這裡空氣特別好,就是因為空氣太好了,
所以很多肺癌病人都搬到那裡了,而且都死在那裡,於是就有了這樣的數據。
如果你不明就裡,拿著空氣淨化器跑來推銷,很明顯會失敗。
所以,你必須了解數據背後的因果性。
以上就是吳甘沙對大數據的三個反思。
本文源自:前Intel中國研究院院長吳甘沙:不要讓大數據的相關性主宰我們的生活
稿:安迪
轉載:得到
---------
主旨:
1. 不是說數據越多預測就越準確
大數據就像一個貧礦,價值密度很低,如果沒把握,最好不要採集全部數據。
2. 數據的質量非常重要
如果沒有辨識度,這個數據就沒有意義
3. 只需要相關性,就不需要因果性
舉例說明(錯誤的因果關係):
美國印地安納州,是美國肺癌死亡率最高的州。
人馬上就會覺得,這個地方空氣肯定不好。
其實,這裡空氣特別好,就是因為空氣太好了,所以很多肺癌病人都搬到那裡了,
而且都死在那裡,於是就有了這樣的數據。
如果不明就裡,拿著空氣淨化器跑來推銷,很明顯會失敗。
所以,必須了解數據背後的因果性。
沒有留言:
張貼留言