2017年4月15-16日,由中國新一代IT產業(yè)推進聯盟指導、CIO時代學院主辦、CIO時代APP承辦的“第二期政府CIO論壇”在北京寬溝會議中心順利舉行,本次活動的主題是“政務大數據的應用”,部分政府CIO班學員、政府信息化負責人等聚集于此,共同參與本次活動的探討與研究。中國新一代IT產業(yè)推進聯盟技術分委會秘書長、首席數據官聯盟發(fā)起人、北京萬山數據首席架構師魯四海帶來了題為《政務大數據自助挖掘》的主題分享。以下為演講實錄:

 

中國新一代IT產業(yè)推進聯盟技術分委會秘書長、
首席數據官聯盟發(fā)起人、北京萬山數據首席架構師魯四海
 
  各位朋友大家好,我這次主要匯報三個方向內容:第一是個人對大數據的理解;第二和政府合作通過大數據促進傳統(tǒng)行業(yè)轉型升級的案例;第三是我們在技術方面遇到的難點及我們的技術實現的路徑,希望各位專家們能夠給我們多提一些意見。
 
  大數據應用有兩個場景,AI與 BI。兩者都是通對數據的感知、理解、挖掘,然后形成決策支持,最終反饋到“行動”中去;只不過AI對行動的“影響”是自動化的。不管是AI還是BI,都需要大數據回答我們這幾個問題:過去發(fā)生了什么,現在正在發(fā)生什么,為什么發(fā)生,將來要發(fā)生什么。而這些又都是通過透視業(yè)務活動中產生的數據得到的。舉例來說,未來的商業(yè),誰能更多的搜集業(yè)務過程中的數據并加之有效分析挖掘,誰就占得先機;誰在產品運行過程記錄了更多的數據,結合機器學習等技術進行深度挖掘,誰的產品就更有優(yōu)勢。
 
  不難看出,大數據核心環(huán)節(jié)是數據理解、挖掘。對于政務大數據平臺來說,除了考慮系統(tǒng)管理人員、政務管理人員兩類用戶外,更多得需要考慮數據分析人員的訴求。大數據平臺的魅力所在是讓分析人員便捷的進行數據挖掘。如果分析人員不能自主的進行數據挖掘,那么數據的價值、大數據平臺的價值都將大打折扣。
 
  下面我們舉個例子來說,數據挖掘和數據分析人員在整個大數據利用過程中的重要性。魚腥草,在我家鄉(xiāng)有很多野生的,想吃的時候拿把鋤頭上山,很快就能背一背簍回去。但這確實是一個好東西,可以煮湯當茶水喝清熱解暑,可以做成美味的涼菜,加到調料里更是別有一翻風味,還可以做成藥品治病。我想說,這東西長在山上的時候毫不起眼,經過不同的工藝加工后,就完成不一樣了。正如數據本身是沒有“價值”的,只有經過不同角度的分析挖掘,反饋到不同的“行動”中去,才能將其價值發(fā)掘出來。
 
 
  前段時間我們北大CIIM-瀘州電子商務大數據開放實驗室通過大數據對白酒電商行業(yè)發(fā)展進行分析。其中有一部分內容就是對各電子商務網站上陳列的產品信息、用戶評論進行分析。就這個數據來講,公開的,誰都見過,誰都能通過正常渠道獲取。但不同的分析師分析出來的結果是大不相同的。我們一開始的時候就是自選一個熟悉的角度對這些數據進行分析,結果就這點數據,就出現了上百分析維度。
 
  電子商務大數據開放實驗室由北大CIIM中心和瀘州電商產業(yè)園共建,很重要的一項功能就是提供一個能讓分析師自助分析大數據平臺,讓分析師從不同的角度進行數據挖掘,為政府提供決策支持,為產業(yè)發(fā)展提供數據支撐,為傳統(tǒng)行業(yè)轉型提供建議。
 
  在瀘州白酒行業(yè)存在很大一批OEM廠商,由于供應鏈和品牌廠商的影響,轉型壓力巨大,也有不少想發(fā)展電商,但找不著好的路徑和標桿,從這次的數據分析中就能看到如果有一定品牌知名度,洋河是一種不錯的發(fā)展方式,如果從零拓展一個品牌,那么江小白無疑是值得學習的。
 
  我們對互聯網銷售的白酒的酒精度分布進行分析,發(fā)現35度以下的酒呈明顯的上升態(tài)勢,這是為什么呢,通過對用戶數據進行分析后發(fā)現,電商酒類消費者女性用戶和85、90后用戶越來越多。對于企業(yè)來講就意味著市場需求要發(fā)生變化,產品要做出相應的調整。
 
  對用戶評論進行分析,我們發(fā)現影響用戶體驗最主要的三大因素是:真假、價格、包裝,做電商產品,這幾個方面的的保障,也就變得非常重要。
 
  計劃下一步和流通溯源大數據結合,開展更深度的分析,為企業(yè)、政府提供更有價值的數據。
 
  前面講到大數據的價值,需要分析師從不同的角度進行挖掘,分析師的精力要聚焦在數據挖掘上,所以需要一個敏捷分析平臺。這個敏捷分析平臺應該是什么樣子,我們一開始也有一些爭論,同時延伸到了對敏捷BI的思考。比如這個平臺是不是就是敏捷BI?又是不是僅是一個在線的報表工具?是不是只要實現拖拽就意味著敏捷?最后發(fā)現沒這么簡單,我們真正需要的平臺要具備以下特點:
 
  1、實現可管控的開放數據集;
 
  2、分析人員可以通過平臺直接對開放數據集進行數據挖掘;
 
  3、分析人員在平臺上分析的結果可以進行分享交流,集體討論并優(yōu)化;
 
  4、數據集、分析結果均可以實現動態(tài)更新;
 
  5、移動化,一是操作界面可以自適應不同的屏幕,二是閱讀界面能針對不能設備定制;
 
  6、支持多租戶;
 
  7、我們需要系統(tǒng)安全可控、可以便捷地進行二次。
 
  通過考察,我們最終選擇了開源BI工具--SpagoBI。它是目前全球唯一一個100%開源的。它的主要功能有以下幾點:
 
  大數據支持:可以構建自己的大數據分析平臺,處理任何格式的數據,甚至可以對非結構化數據進行分析。
 
  內存計算:可以自己建立一個交互式的管理駕駛艙。通過一個動態(tài)的和交互的方式瀏覽你的數據,使您在業(yè)務的各個方面快速做出決策。
 
  多租戶:即單個 SpagoBI 實例服務多個組織(租戶)。在多租戶架構中,每個租戶可獨立擁有和管理自己的用戶、文件、配置和參數。
 
  自助分析:只要通過點擊幾下鼠標和簡單拖拽動作,就可以立馬得到您所要的分析報表。
 
  即時分析、假設分析、地理位置分析等多功能。
 
  SpagoBI各組件之前耦合度低,各種引擎均使用該領域內主流的開源工具進行集成,對于學習和應用的成本較低,同時解決了很多兼容性的問題。SpagoBI存在的問題現在還沒有中文版,資料也基本是英文的。我們在做這個項目的過程中,同時對SpagoBI進行了漢化,重要的部署、操作資料也進行了翻譯,很快整理之后都將通過Spago86社區(qū)進行公布。
 
 
  我的匯報就到這,感謝各位。
責任編輯:admin