2016年8月20日 星期六

得到-科技-為什麼數據專家很難去做大數據

文章出處:為什麼數據專家很難去做大數據


最近幾年,大數據是相當的熱。
有關大數據的故事也非常精彩和神奇,
比如說它既能告訴你超市裡嬰兒尿布和啤酒之間的關係,也能幫美國政府抓住本拉登。
著名投資人王煜全在他的訂閱專欄“前哨·王煜全”裡,
從投資和創業的角度給大家展現了大數據的另一面。


他認為只看大數據是不夠的,實際上,未來大數據的核心叫“社會化大數據”,
就是把各種數據和人關聯在一起,然後再把人和人的關係搞清楚。
就是因為這個理論,美國就有好多人覺得Google的價值不如Facebook。
你想啊,Google掌握的只是每個散開的點,每個人都搜索了什麼,
但是卻不知道電腦後面那個人是誰,也不知道這些人互相之間的關係,
但Facebook就牛了,它上面積累的所有數據,關係都是很清晰的。
雖然數據量未必比Google大,但它的數據都是和人之間的關係,反映的也是人的互動。


美國有個專家,是大數據預測領域最前沿的科學家。
他利用社會化數據預測電影票房啊、歌星前途啊、哪首歌會大賣啊等等這些事。
最牛的是,他能對社會化數據進行分析,然後預測股市的走向。
做過股市預測的都知道,股市預測最難的其實不是個股,
最難的是對趨勢的分析,對未來整個股市大趨勢和方向的判斷。
通過分析,他就發現,
股市的趨勢變化和一個詞在社交網絡上出現的熱度是高度相關的,什麼詞呢?
就是CALM,冷靜的意思。
這也就是說,股市的變動其實和經濟形勢好壞什麼的關係不大,而是和民意有很大關係。
如果投資者情緒穩定,那股市就會越來越好;
如果老百姓緊張了、恐慌了,股市就容易下滑。
CALM這個詞就反映了民意,它出現的頻率高,
就代表老百姓的心情比較平靜,這個時候股市就會升。
出現頻率下降,就說明老百姓比較焦慮,股市就會跌。
所以你看,大數據的特點不在數據本身,而是數據的洞察力。

未來大數據這麼有用,你說我的數學和計算機都還不錯,
那我是不是可以找個和大數據相關的項目開始創業了呢?
遺憾的是,王煜全說了,大數據領域並不是有了洞察力就能解決問題的,
因為大數據,尤其是社會化數據有天然的壁壘,
這就會導致一個問題,那就是巧婦難為無米之炊啊。


比如說好幾年以前有個經典案例,
就是騰訊提供過這麼一個服務,它幫你把你的QQ好友分組。
這個分組的準確程度會讓你覺得可怕,
你會突然發現,騰訊幫我分出來的這一組人,就全都是我的小學同學嘛,
而那一組人就都是我的初中同學嘛。
為啥騰訊知道的這麼詳細、這麼精準呢?它開了天眼嗎?

當然不是,騰訊其實只是利用了一個參數,就是看你加好友的時間,通過這個判斷出來的。
因為QQ是伴著我們一起成長的,十年前你在上小學的時候,好友就是那些人;
到七八年前你上初中了,就新加了一批好友;
到上高中了,又新加了一批。以此類推,
騰訊就知道你在某一個時間段裡集中新加的好友是有特殊意義的。
所以這就看出來了,騰訊的社交網絡分析和數據分析能力稱不上有多強,
但是只要能掌握數據,也能做出讓人覺得匪夷所思的事。


整個社會化數據分兩類,一類是開放的,
比如Facebook,你可以自由地訪問一個你不認識的人。

另一類像微信,是封閉數據,就是說你不認識的人,
他的主頁也好,信息也好,你是訪問不了的,
連你和另一個人的互動聊天,對第三方來說都是加密的,別人看不到
這就意味著,除了騰訊以外,沒人能掌握這些互動數據和積累的信息

因此,大數據的門檻是非常非常高的,
尤其是到了今天,十個人都已經知道數據有很大的價值了,
就相當於說每個人都知道數據裡有金子。
那這時候,大多數公司就會採取相對封閉的辦法,
雖然我的掘金能力還不夠強,但是這金礦我得先佔著,而且還不讓別人來採。
比如說當初中國移動,它的用戶價值巨大,
它就不讓別人來給這些用戶提供服務,哪怕說我現在的服務不好,
但是我也不能允許別人隨便來搶我的金礦,就是這種心態。

恰恰就是這種心態,正阻礙著行業的發展。
那些最優秀的專家就沒有機會獲得他們需要的數據。
而擁有這些數據的人和機構,就會擁兵自重。
尤其最近這幾年,人工智能也發展起來了,
我們要用數據訓練人工智能,就需要行業的大數據來做訓練集。
這就又進一步提升了數據的價值,在壟斷問題沒解決的時候,價值又增加了,
所以未來數據壟斷這個問題反而會更嚴重,更凸顯。

最典型的例子就是《奇點臨近》這本書的作者庫茲韋爾,
他本身在美國就是個非常成功的企業家和發明家,而且特別有錢。
但是他前一段加入了Google公司,頭銜很低。
他都這麼有錢了,何必非得為了這麼個頭銜加入一家公司呢?

實際上,
他並不想加入Google,也不是為了那個頭銜或者那份薪水,他就是想利用Google的數據。
他發現,要研究人工智能,要取得突破,必須得有強大的數據做支持,
那全世界最好的數據在哪呢?在Google那。
所以他就去找Google的創始人去談,說我能不能利用你的數據去做人工智能啊? 
Google的創始人也是一個比較有情懷的人,但是情懷歸情懷,商業歸商業。 
Google創始人就說,我們非常願意支持你的研發,也願意把數據提供給你。
但是數據呢是我們公司的核心資產,不能交給外人。
所以你要是想利用Google的數據,就必須得加盟Google。

類似的情況還有很多,
美國有幾個很著名的研究社交網絡的大數據專家,都紛紛加入了Google,加入了Facebook。
在人工智能領域和深度學習領域,大學教授不需要加入什麼公司,就能做出很深刻的研究。
但在大數據領域,你只是一個大學教授,根本沒機會拿到數據,那還做啥研究。
只有加盟Facebook,加盟Google這些掌握著大數據的企業,你才有機會拿到數據,
才能去做更深入的研究。所以王煜全很無奈的說,這其實是一個很悲哀的現狀。


本文源自:得到App“前哨·王煜全”訂閱專欄
稿:徐亞聖
轉載:得到

沒有留言:

張貼留言