2013年7月25日,郭永宏先生受邀為湖北省十堰市委中心組學習授課,下文由當日演講實錄整理而成。
一、當今世界已進入大數(shù)據(jù)時代
現(xiàn)在世界已經(jīng)進入了大數(shù)據(jù)時代。什么是大數(shù)據(jù)呢?大數(shù)據(jù)是指對海量數(shù)據(jù)進行智慧分析并且預測結果的行為和思維方式。以2012年的互聯(lián)網(wǎng)為例,每天有2940億封電子郵件發(fā)出,如果采用20多年前寄信的方式,需要美國郵政局處理兩年;每天有200萬篇博客發(fā)表、2。5億張照片上傳到Facebook;每天有86。4萬小時的視頻上傳到Youtube,如果連續(xù)播放需要770年,這一天產(chǎn)生的信息量,可以裝滿1。86億張DVD光盤。
《大數(shù)據(jù)時代》的作者舍恩伯格說,數(shù)據(jù)量在過去25年當中急劇增長,所以就形成了現(xiàn)在的數(shù)據(jù)雪崩。1987年,模擬數(shù)據(jù)量是26億,數(shù)字數(shù)據(jù)量是2000萬。2007年,模擬數(shù)據(jù)量是186億,數(shù)字數(shù)據(jù)量是2760億。今天,模擬數(shù)據(jù)量占比已經(jīng)不到2%,模擬數(shù)據(jù)很難被再處理、再應用,而數(shù)字數(shù)據(jù)可以不斷地被重復應用,數(shù)字數(shù)據(jù)的大量產(chǎn)生讓計算機處理成為可能。
什么時候開始爆發(fā)大數(shù)據(jù)呢?我們什么時候進入大數(shù)據(jù)時代呢?《大數(shù)據(jù)時代》這本書是去年12月份出版的,作者認為,世界進入“拍字節(jié)(PB,Petabyte)是大數(shù)據(jù)爆發(fā)的臨界點”。計算機上最小的數(shù)據(jù)單位是一個字節(jié),一個英文字母或者一個阿拉伯數(shù)字就是一個字節(jié),一個漢字相當于兩個字節(jié)。最早我們知道的是KB,就是千字節(jié),MB是百萬字節(jié),GB是億字節(jié)。世界進入大數(shù)據(jù)時代,后面還有EB、ZB等等,KB<MB<GB<TB<PB<EB<ZB<YB<BB<NB<DB。
中國國家圖書館藏書是2631萬冊,這相當于41TB,美國國家圖書館是1.5億冊,相當于235TB,一個PB相當于4.36個美國國家圖書館的數(shù)據(jù)量。現(xiàn)在新提出來一個概念,叫數(shù)據(jù)宇宙。據(jù)有關方面預測,從現(xiàn)在到2020年,數(shù)字宇宙將每兩年翻一倍,到2020年,全球的數(shù)據(jù)量會達到40ZB,人均數(shù)據(jù)預計將達5,247GB?,F(xiàn)在,大部分數(shù)據(jù)沒有得到充分保護。2012年只有35%的數(shù)據(jù)被以某種形式進行保護。到2020年時,近40%的信息將會被云計算“觸及”。也就是說,數(shù)據(jù)在產(chǎn)生、傳播和處理應用的過程中,肯定在某一個環(huán)節(jié)被以云計算方式來展現(xiàn)。
大數(shù)據(jù)有四個特征即“4V”。一是Volume,數(shù)據(jù)量巨大。2007年的數(shù)據(jù)量是1987年的100多倍,這么大的數(shù)據(jù)量對過去傳統(tǒng)的存儲技術產(chǎn)生了挑戰(zhàn),如果按照大數(shù)據(jù)時代的要求,現(xiàn)在的存儲方式肯定是不能適應的,而且成本巨大。將來唯有儲存到某個云計算中心或者云存儲中心,才是最便宜最方便的。二是Variety,數(shù)據(jù)的類型多。各種各樣類型的數(shù)據(jù)都被展現(xiàn)出來,有數(shù)字、圖像、聲音、文本等各種各樣的形式。三是Velocity,速度處理的要求高。業(yè)內(nèi)的“一秒定律”認為,各種處理必須在1秒鐘內(nèi)完成高速實時處理。四是Value,價值大、密度低。對于大量的數(shù)據(jù)我們可能不能在很短的時間內(nèi)分析出來,可是里面又藏著巨大的價值,所以需要“沙里淘金”。
大數(shù)據(jù)是從哪來的呢?現(xiàn)在分為3類:有人和人之間,比如兩人之間的溝通;人和機器之間,比如我們操作電腦發(fā)郵件等等;還有就是機器和機器之間,比如物聯(lián)網(wǎng)。數(shù)據(jù)大部分都是來源于傳統(tǒng)的互聯(lián)網(wǎng)、桌面電腦、移動互聯(lián)網(wǎng)以及物聯(lián)網(wǎng),還有云計算產(chǎn)生的數(shù)據(jù)。尤其是移動互聯(lián)網(wǎng)增長迅速,根據(jù)思科的統(tǒng)計,全球移動互聯(lián)網(wǎng)流量增長的復合增長率是年均66%,2012年底,移動互聯(lián)網(wǎng)的流量已經(jīng)占互聯(lián)網(wǎng)總流量的13%,這些都是源于智能手機、平板電腦的大量增長。2011年,智能手機出貨量超過PC,2013年一季度中國智能手機用戶已經(jīng)達到4.2億。初期,手機只有電話功能,那是大哥大時代;到GSM數(shù)字手機出現(xiàn)短信功能,后來手機開通GPRS功能就可以上網(wǎng),進入2G時代;現(xiàn)在是3G時代,速率達到2-7M;4G將是70-170M的速率。不同時代的區(qū)別,主要體現(xiàn)在數(shù)據(jù)傳輸速率上。
大數(shù)據(jù)的要義是什么呢?《大數(shù)據(jù)時代》作者舍恩伯格講,大數(shù)據(jù)跟我們傳統(tǒng)的思維方式不一樣,我們過去追求的是因果關系,追求的是“WHY——為什么”,大數(shù)據(jù)時代最大的轉變,是放棄對因果關系的渴求,而關注相關關系。也就是說只需要知道“是什么”,而不需要知道“為什么”。比如,美國是颶風經(jīng)常發(fā)生的地方,大數(shù)據(jù)顯示,發(fā)生颶風后人們會傾向于買兩種東西:手電筒和小餅干。手電筒萬一停電了用得著,為什么還要買小餅干,有些人百思而不得其解。但商家只需要知道買手電必買小餅干,或者發(fā)生颶風后必買小餅干,所以一旦發(fā)生颶風,他們就把手電筒和小餅干擺在最顯眼的地方出售,而不用問為什么,其實知道為什么也沒有多大用處。我國講究“因緣”關系,比如儒釋道都講求“因緣”、“因果”,而大數(shù)據(jù)時代對其做了一個改變,因為要追尋原因太復雜了。
二、大數(shù)據(jù)的應用價值無限
2011年5月,麥肯錫全球研究院發(fā)布了《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領域》報告,認為:大數(shù)據(jù)將在政府公共服務、醫(yī)療服務、零售制造等各個方面得到廣泛應用,而且會產(chǎn)生巨大的社會價值和產(chǎn)業(yè)空間。文中從契合度和應用可能性兩個角度分析并得出結論:政府機構與大數(shù)據(jù)有非常高的契合度,而且擁有非常大的應用可能性。美國總統(tǒng)奧巴馬說大數(shù)據(jù)是“未來的新石油”,他要求打破政府各部門、政府與民眾之間的“信息孤島”,實現(xiàn)數(shù)據(jù)共享,構建跨系統(tǒng)、跨平臺、跨數(shù)據(jù)結構的政府綜合信息處理平臺;實現(xiàn)政府內(nèi)部縱向、橫向的流暢協(xié)同;縮短處理響應時間,提高工作效率,并使得政府信息的經(jīng)濟價值得到最大化?,F(xiàn)在,人們普遍的觀點是:數(shù)據(jù)是能挖掘潛在價值的軟資產(chǎn),比固定資產(chǎn)更有價值。2012年,達沃斯論壇發(fā)布的報告《大數(shù)據(jù) 大影響》宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟資產(chǎn)類別,就像貨幣或黃金一樣,叫數(shù)據(jù)資產(chǎn),賽過黃金。
