文章出處:為什麼數據專家很難去做大數據
最近幾年,大數據是相當的熱。
有關大數據的故事也非常精彩和神奇,
比如說它既能告訴你超市裡嬰兒尿布和啤酒之間的關係,也能幫美國政府抓住本拉登。
著名投資人王煜全在他的訂閱專欄“前哨·王煜全”裡,
從投資和創業的角度給大家展現了大數據的另一面。
他認為只看大數據是不夠的,實際上,未來大數據的核心叫“社會化大數據”,
就是把各種數據和人關聯在一起,然後再把人和人的關係搞清楚。
就是因為這個理論,美國就有好多人覺得Google的價值不如Facebook。
你想啊,Google掌握的只是每個散開的點,每個人都搜索了什麼,
但是卻不知道電腦後面那個人是誰,也不知道這些人互相之間的關係,
但Facebook就牛了,它上面積累的所有數據,關係都是很清晰的。
雖然數據量未必比Google大,但它的數據都是和人之間的關係,反映的也是人的互動。
美國有個專家,是大數據預測領域最前沿的科學家。
他利用社會化數據預測電影票房啊、歌星前途啊、哪首歌會大賣啊等等這些事。
最牛的是,他能對社會化數據進行分析,然後預測股市的走向。
做過股市預測的都知道,股市預測最難的其實不是個股,
最難的是對趨勢的分析,對未來整個股市大趨勢和方向的判斷。
通過分析,他就發現,
股市的趨勢變化和一個詞在社交網絡上出現的熱度是高度相關的,什麼詞呢?
就是CALM,冷靜的意思。
這也就是說,股市的變動其實和經濟形勢好壞什麼的關係不大,而是和民意有很大關係。
如果投資者情緒穩定,那股市就會越來越好;
如果老百姓緊張了、恐慌了,股市就容易下滑。
CALM這個詞就反映了民意,它出現的頻率高,
就代表老百姓的心情比較平靜,這個時候股市就會升。
出現頻率下降,就說明老百姓比較焦慮,股市就會跌。
所以你看,大數據的特點不在數據本身,而是數據的洞察力。
未來大數據這麼有用,你說我的數學和計算機都還不錯,
那我是不是可以找個和大數據相關的項目開始創業了呢?
遺憾的是,王煜全說了,大數據領域並不是有了洞察力就能解決問題的,
因為大數據,尤其是社會化數據有天然的壁壘,
這就會導致一個問題,那就是巧婦難為無米之炊啊。
比如說好幾年以前有個經典案例,
就是騰訊提供過這麼一個服務,它幫你把你的QQ好友分組。
這個分組的準確程度會讓你覺得可怕,
你會突然發現,騰訊幫我分出來的這一組人,就全都是我的小學同學嘛,
而那一組人就都是我的初中同學嘛。
為啥騰訊知道的這麼詳細、這麼精準呢?它開了天眼嗎?
當然不是,騰訊其實只是利用了一個參數,就是看你加好友的時間,通過這個判斷出來的。
因為QQ是伴著我們一起成長的,十年前你在上小學的時候,好友就是那些人;
到七八年前你上初中了,就新加了一批好友;
到上高中了,又新加了一批。以此類推,
騰訊就知道你在某一個時間段裡集中新加的好友是有特殊意義的。
所以這就看出來了,騰訊的社交網絡分析和數據分析能力稱不上有多強,
但是只要能掌握數據,也能做出讓人覺得匪夷所思的事。
整個社會化數據分兩類,一類是開放的,
比如Facebook,你可以自由地訪問一個你不認識的人。
另一類像微信,是封閉數據,就是說你不認識的人,
他的主頁也好,信息也好,你是訪問不了的,
連你和另一個人的互動聊天,對第三方來說都是加密的,別人看不到。
這就意味著,除了騰訊以外,沒人能掌握這些互動數據和積累的信息。
因此,大數據的門檻是非常非常高的,
尤其是到了今天,十個人都已經知道數據有很大的價值了,
就相當於說每個人都知道數據裡有金子。
那這時候,大多數公司就會採取相對封閉的辦法,
雖然我的掘金能力還不夠強,但是這金礦我得先佔著,而且還不讓別人來採。
比如說當初中國移動,它的用戶價值巨大,
它就不讓別人來給這些用戶提供服務,哪怕說我現在的服務不好,
但是我也不能允許別人隨便來搶我的金礦,就是這種心態。
但恰恰就是這種心態,正阻礙著行業的發展。
那些最優秀的專家就沒有機會獲得他們需要的數據。
而擁有這些數據的人和機構,就會擁兵自重。
尤其最近這幾年,人工智能也發展起來了,
我們要用數據訓練人工智能,就需要行業的大數據來做訓練集。
這就又進一步提升了數據的價值,在壟斷問題沒解決的時候,價值又增加了,
所以未來數據壟斷這個問題反而會更嚴重,更凸顯。
最典型的例子就是《奇點臨近》這本書的作者庫茲韋爾,
他本身在美國就是個非常成功的企業家和發明家,而且特別有錢。
但是他前一段加入了Google公司,頭銜很低。
他都這麼有錢了,何必非得為了這麼個頭銜加入一家公司呢?
實際上,
他並不想加入Google,也不是為了那個頭銜或者那份薪水,他就是想利用Google的數據。
他發現,要研究人工智能,要取得突破,必須得有強大的數據做支持,
那全世界最好的數據在哪呢?在Google那。
所以他就去找Google的創始人去談,說我能不能利用你的數據去做人工智能啊?
Google的創始人也是一個比較有情懷的人,但是情懷歸情懷,商業歸商業。
Google創始人就說,我們非常願意支持你的研發,也願意把數據提供給你。
但是數據呢是我們公司的核心資產,不能交給外人。
所以你要是想利用Google的數據,就必須得加盟Google。
類似的情況還有很多,
美國有幾個很著名的研究社交網絡的大數據專家,都紛紛加入了Google,加入了Facebook。
在人工智能領域和深度學習領域,大學教授不需要加入什麼公司,就能做出很深刻的研究。
但在大數據領域,你只是一個大學教授,根本沒機會拿到數據,那還做啥研究。
只有加盟Facebook,加盟Google這些掌握著大數據的企業,你才有機會拿到數據,
才能去做更深入的研究。所以王煜全很無奈的說,這其實是一個很悲哀的現狀。
本文源自:得到App“前哨·王煜全”訂閱專欄
稿:徐亞聖
轉載:得到
最近幾年,大數據是相當的熱。
有關大數據的故事也非常精彩和神奇,
比如說它既能告訴你超市裡嬰兒尿布和啤酒之間的關係,也能幫美國政府抓住本拉登。
著名投資人王煜全在他的訂閱專欄“前哨·王煜全”裡,
從投資和創業的角度給大家展現了大數據的另一面。
他認為只看大數據是不夠的,實際上,未來大數據的核心叫“社會化大數據”,
就是把各種數據和人關聯在一起,然後再把人和人的關係搞清楚。
就是因為這個理論,美國就有好多人覺得Google的價值不如Facebook。
你想啊,Google掌握的只是每個散開的點,每個人都搜索了什麼,
但是卻不知道電腦後面那個人是誰,也不知道這些人互相之間的關係,
但Facebook就牛了,它上面積累的所有數據,關係都是很清晰的。
雖然數據量未必比Google大,但它的數據都是和人之間的關係,反映的也是人的互動。
美國有個專家,是大數據預測領域最前沿的科學家。
他利用社會化數據預測電影票房啊、歌星前途啊、哪首歌會大賣啊等等這些事。
最牛的是,他能對社會化數據進行分析,然後預測股市的走向。
做過股市預測的都知道,股市預測最難的其實不是個股,
最難的是對趨勢的分析,對未來整個股市大趨勢和方向的判斷。
通過分析,他就發現,
股市的趨勢變化和一個詞在社交網絡上出現的熱度是高度相關的,什麼詞呢?
就是CALM,冷靜的意思。
這也就是說,股市的變動其實和經濟形勢好壞什麼的關係不大,而是和民意有很大關係。
如果投資者情緒穩定,那股市就會越來越好;
如果老百姓緊張了、恐慌了,股市就容易下滑。
CALM這個詞就反映了民意,它出現的頻率高,
就代表老百姓的心情比較平靜,這個時候股市就會升。
出現頻率下降,就說明老百姓比較焦慮,股市就會跌。
所以你看,大數據的特點不在數據本身,而是數據的洞察力。
未來大數據這麼有用,你說我的數學和計算機都還不錯,
那我是不是可以找個和大數據相關的項目開始創業了呢?
遺憾的是,王煜全說了,大數據領域並不是有了洞察力就能解決問題的,
因為大數據,尤其是社會化數據有天然的壁壘,
這就會導致一個問題,那就是巧婦難為無米之炊啊。
比如說好幾年以前有個經典案例,
就是騰訊提供過這麼一個服務,它幫你把你的QQ好友分組。
這個分組的準確程度會讓你覺得可怕,
你會突然發現,騰訊幫我分出來的這一組人,就全都是我的小學同學嘛,
而那一組人就都是我的初中同學嘛。
為啥騰訊知道的這麼詳細、這麼精準呢?它開了天眼嗎?
當然不是,騰訊其實只是利用了一個參數,就是看你加好友的時間,通過這個判斷出來的。
因為QQ是伴著我們一起成長的,十年前你在上小學的時候,好友就是那些人;
到七八年前你上初中了,就新加了一批好友;
到上高中了,又新加了一批。以此類推,
騰訊就知道你在某一個時間段裡集中新加的好友是有特殊意義的。
所以這就看出來了,騰訊的社交網絡分析和數據分析能力稱不上有多強,
但是只要能掌握數據,也能做出讓人覺得匪夷所思的事。
整個社會化數據分兩類,一類是開放的,
比如Facebook,你可以自由地訪問一個你不認識的人。
另一類像微信,是封閉數據,就是說你不認識的人,
他的主頁也好,信息也好,你是訪問不了的,
連你和另一個人的互動聊天,對第三方來說都是加密的,別人看不到。
這就意味著,除了騰訊以外,沒人能掌握這些互動數據和積累的信息。
因此,大數據的門檻是非常非常高的,
尤其是到了今天,十個人都已經知道數據有很大的價值了,
就相當於說每個人都知道數據裡有金子。
那這時候,大多數公司就會採取相對封閉的辦法,
雖然我的掘金能力還不夠強,但是這金礦我得先佔著,而且還不讓別人來採。
比如說當初中國移動,它的用戶價值巨大,
它就不讓別人來給這些用戶提供服務,哪怕說我現在的服務不好,
但是我也不能允許別人隨便來搶我的金礦,就是這種心態。
但恰恰就是這種心態,正阻礙著行業的發展。
那些最優秀的專家就沒有機會獲得他們需要的數據。
而擁有這些數據的人和機構,就會擁兵自重。
尤其最近這幾年,人工智能也發展起來了,
我們要用數據訓練人工智能,就需要行業的大數據來做訓練集。
這就又進一步提升了數據的價值,在壟斷問題沒解決的時候,價值又增加了,
所以未來數據壟斷這個問題反而會更嚴重,更凸顯。
最典型的例子就是《奇點臨近》這本書的作者庫茲韋爾,
他本身在美國就是個非常成功的企業家和發明家,而且特別有錢。
但是他前一段加入了Google公司,頭銜很低。
他都這麼有錢了,何必非得為了這麼個頭銜加入一家公司呢?
實際上,
他並不想加入Google,也不是為了那個頭銜或者那份薪水,他就是想利用Google的數據。
他發現,要研究人工智能,要取得突破,必須得有強大的數據做支持,
那全世界最好的數據在哪呢?在Google那。
所以他就去找Google的創始人去談,說我能不能利用你的數據去做人工智能啊?
Google的創始人也是一個比較有情懷的人,但是情懷歸情懷,商業歸商業。
Google創始人就說,我們非常願意支持你的研發,也願意把數據提供給你。
但是數據呢是我們公司的核心資產,不能交給外人。
所以你要是想利用Google的數據,就必須得加盟Google。
類似的情況還有很多,
美國有幾個很著名的研究社交網絡的大數據專家,都紛紛加入了Google,加入了Facebook。
在人工智能領域和深度學習領域,大學教授不需要加入什麼公司,就能做出很深刻的研究。
但在大數據領域,你只是一個大學教授,根本沒機會拿到數據,那還做啥研究。
只有加盟Facebook,加盟Google這些掌握著大數據的企業,你才有機會拿到數據,
才能去做更深入的研究。所以王煜全很無奈的說,這其實是一個很悲哀的現狀。
本文源自:得到App“前哨·王煜全”訂閱專欄
稿:徐亞聖
轉載:得到
沒有留言:
張貼留言