摘要:
文章首先對國內外研究歐洲開放政府數據的文獻進行了回顧, 從政策、資金、培訓、評估4個方面總結了歐洲開放政府數據的合作模式, 重點分析了數據共建共享的實現途徑——歐洲數據門戶的數據源整合、數據發(fā)布、數據利用和許可協議, 最后提出數據開放和隱私保護并重、專項資金、專門復合人才培養(yǎng)以及完善的數據管理和平臺評估等有益經驗。
一、引言
2015年5月, 歐盟正式頒布了“數字單一市場”戰(zhàn)略, 目的之一是實現歐盟國家之間數據的自由流動。據歐洲數據門戶小組的研究, 歐盟國家中有26個都已經建立了國家級開放政府數據門戶, 2016年至2020年, 開放數據的市場規(guī)模將增長36.9%, 其價值將在2020年達到75.7億歐元。歐盟于2011年6月和2013年1月建立了“開放數據門戶” (Public Data.eu)和“歐盟開放數據門戶” (European Union Open Data Portal, ODP)。2015年11月在盧森堡舉行的歐洲數據論壇上, 歐盟委員會正式啟動了“歐洲數據門戶” (European Data Portal, EDP)的測試版, 計劃取代Public Data.eu。EDP收集的是歐洲國家公共數據門戶上的公共部門信息的元數據, 直接從歐洲各國獲取數據, 同時EDP也會收集ODP的元數據。本文將重點分析歐洲開放政府數據的共建共享模式以及實現途徑EDP門戶的數據管理體系, 結合中國目前開放數據的現狀, 總結出可供參考的有益借鑒經驗。
二、歐洲開放政府數據研究概述
?。?)國外歐洲開放政府數據的相關研究
國外學者研究側重于政策分析、項目評估和國家平臺建設。Blasio E D和Selva D分析了法國、意大利、西班牙和英國的開放政府政策文件, 通過比較具體的措施和動機來反映各國對開放政府的不同理解。Loenen B V等人認為開放數據政策應該遵循《歐盟數據保護指令》中個人數據保護的原則, 但目前《歐盟數據保護指令》中數據的范圍逐漸在擴大, 這可能阻礙歐盟開放數據政策的實施, 因此有必要重新思考個人數據的概念。項目評估方面也很重視, Attard J等人探討了政府數據價值創(chuàng)造的流程, 提出了一個價值創(chuàng)造評估框架, 基于該框架評估了兩個歐洲國家的開放政府數據項目。Viscusi G等人提出了一個基于質量的開放政府數據遵循評估框架, 該框架由質量維度和一套測量遵循的標準組成, 并將該框架用于意大利地方政府部門開放政府數據項目的評估。關于國家平臺建設, Bright J等人以英國開放數據門戶為研究對象, 提出了一個測試分析模型, 意在解釋單個數據集被下載的次數, 同時也探討了與開放數據經濟可持續(xù)性和政治影響的有關的因素。Gomes和Soares D對比了3個北歐國家 (丹麥、挪威和英國) 和3個南歐國家 (意大利、葡萄牙和西班牙) 在開放政府數據門戶建立發(fā)展方面的不同, 結果發(fā)現兩個地區(qū)的差異主要體現在他們再利用開放數據的能力上。Arquero Avilés R和Marco Cuenca G從ODP的內容、建立標準、主要的數據集、數據格式以及提供的應用等方面對ODP進行了細致的介紹分析。Waal SVD等人描述了開放數據門戶的主要功能, 提出了一個概念模型, 并將Public Data.eu作為一個典型例子進行了分析。
?。?)我國歐洲開放政府數據相關研究
國內對歐洲開放數據的研究以政策戰(zhàn)略和個別國家的數據門戶為主, 對于歐洲的數據平臺只有壽志勤等介紹了歐盟開放數據門戶ODP, 并在其基礎上提出了一個長三角地區(qū)政府數據開放門戶架構。張起對于歐盟開放政府數據的頂層設計框架、法律制度以及遇到的問題和應對策略等進行了分析。曹凌從大數據創(chuàng)新的角度分析了歐盟開放數據的戰(zhàn)略, 包括清除法律、意識和技術方面的開放障礙, 通過修改指令與立法、投入資金資助、建立歐洲開放的數據門戶等措施保障開放與透明等。英國作為開放數據運動中的領先者, 國內學者對其開放數據的發(fā)展給予了較多關注。陳美對英國開放數據的政策執(zhí)行策略進行了分析, 包括構成其政策執(zhí)行的監(jiān)督機制、政策的多元執(zhí)行主體、開放政府許可協議等內容。朱貝和盛小平從政策實施目的意義、政策制定參與者、條款內容等方面探討了英國的開放數據政策, 并總結了英國開放數據的特點。李燕等人從數據資源、授權模式、數據管理等方面對英國開放政府數據門戶進行了分析。除了對數據開放的研究, 國內學者也注意到了個人隱私保護的必要性。
三、歐洲開放政府數據合作模式——跨國共建共享
歐洲開放政府數據的共建共享模式包括四個要素, 分別是統一的政策指引方向、財政資金的同步跟進、專業(yè)完備的培訓機制以及對數據門戶質量評估的重視 (如圖1) 。
(1)統一政策指引方向
歐盟至今已經頒布了一系列數據開放和隱私保護的政策。2010年3月, 歐盟委員會發(fā)布了“歐盟2020:智慧、可持續(xù)和包容性增長戰(zhàn)略”, 即“歐盟2020發(fā)展戰(zhàn)略”, 公布了未來十年歐盟的經濟發(fā)展計劃, 其核心目標就是實現歐洲經濟的增長, 加強創(chuàng)新能力, 而公共數據正是激發(fā)創(chuàng)新能力的資源之一。2011年12月, 歐盟委員會發(fā)布了報告《開放數據:創(chuàng)新、增長和透明治理的引擎》, 報告中明確提出了歐盟開放數據戰(zhàn)略的關鍵舉措, 包括在2011年12月提出《公共信息再利用指令》的修訂版;在2012年春建立提供委員會數據和其他歐盟組織數據的開放數據門戶 (即現在的ODP平臺) ;在2013年建立提供一個可以提供歐洲各國數據的泛歐洲數據門戶 (即現在的Public Data.eu和EDP平臺) 。歐盟對個人隱私的保護也十分重視, 2015年12月通過了《一般數據保護條例》, 并于2016年5月正式發(fā)布, 將個人在互聯網上產生的數據作為個人基本人權加以保護, 嚴格限制了商業(yè)公司對于個人數據的利用。

歐洲開放政府數據共建共享模式四要素
?。?)政府資金同步跟進
歐盟通過“競爭與創(chuàng)新計劃”和“連接歐洲設施”對成員國開放數據門戶網站的建立提供資金支持, 旨在提高成員國數據的互操作性并實現數據的整合?!案偁幣c創(chuàng)新計劃”從2007年開始運行, 已于2013年結束, 總投資約36億歐元, 主要支持企業(yè)創(chuàng)新以及通信和能源領域的發(fā)展。“連接歐洲設施”始于2014年, 為期7年, 重點支持歐洲交通、能源和電信三個領域的發(fā)展, “公共開放數據項目”就是該計劃在電信領域中支持的一個重要項目, EDP的建成就是其成果之一?!暗仄骄€2020”是歐盟在“第七框架計劃”基礎之上, 適應時代需要設計的新的研究與創(chuàng)新框架計劃, 于2014年正式啟動, 為期7年 (2014~2020) , 總經費770億歐元, 是歐盟最主要的科研資助計劃。在“地平線2020”的2014~2016年工作計劃中, 歐盟委員會開展了名為“開放研究數據試點”的項目, 目的是為了促進由“地平線2020”項目產生的研究數據的再利用, 不過該計劃中只選擇了部分領域的數據進行開放。
?。?)完備的培訓機制
EDP平臺中除了EDP發(fā)表的報告、利用開放數據的案例、關于開放數據的報告新聞等資源之外, 還有一個開放數據在線學習項目及其培訓指南, 里面包括13個模塊的課程, 適合任何水平階段的開放數據學習者, 學習內容從開放數據的基本概念、釋放開放數據的價值、開放數據帶來的變化、開放數據許可、使數據可用到評估開放數據項目、開放數據的可持續(xù)性、開放數據門戶、開放數據格式、什么時候以及如何使用關聯開放數據五星機制中的前三星, 再到清洗數據、挖掘隱藏在互聯網中的數據、關聯開放數據。每個模塊都包含開放數據的一個方面, 并清楚地標明本模塊的適用人群、學習時間以及學習大綱等信息。除了列舉出一些常用的資源, 如數據清洗工具, EDP設計的這一系列課程還通過案例分析和練習等形式加深用戶對開放數據的理解。在部分學習資源中, EDP還提供了英語、德語、法語等多語言版本的學習材料。
?。?)數據門戶質量評估
2013年11月歐盟啟動了為期兩年的“開放數據監(jiān)測器”項目 (Open Data Monitor) 旨在提供開放數據資源, 幫助用戶進行數據分析和數據可視化。該項目主要從開放許可、機器可讀性、可獲得性和元數據完整性4個方面對歐洲32個國家173個數據門戶的1472GB的數據量進行監(jiān)測, 并通過可視化的方式呈現監(jiān)測結果。2015年歐盟委員會發(fā)布了《2015年歐洲開放數據成熟度》報告 (Open Data Maturity in Europe 2015), 2016年又發(fā)布了《2016年歐洲開放數據門戶成熟度》報告, 兩份報告同屬于評估EU28+國家開放數據成熟度水平的系列年度報告。評估主要從開放數據準備度 (Open Data Readiness) 和平臺成熟度 (Portal Maturity) 兩個方面展開, 既涵蓋了各國推動開放數據活動的情況, 也包括對國家級平臺發(fā)展水平的評估。開放數據準備度中主要評估開放數據政策現狀、許可規(guī)則、國家級層面的協調程度、數據利用和開放數據影響力, 平臺成熟度主要評估平臺的可用性、數據的再利用性和數據涉及的領域范圍。
四、歐洲開放政府數據實現途徑——EDP平臺
EDP作為歐洲統一的開放數據門戶, 收集整合了歐洲各國的政府數據, 并以統一的格式進行數據發(fā)布, 使用戶可以通過一個平臺就檢索到多個國家和地區(qū)的政府數據資源, 提高了數據可獲取性。2016年2月EDP上線, 2017年3月2版更新, 數據集從24萬到62萬大幅增加, 支持語言從3種增加到24種, 并發(fā)布了200多篇文章報道以及大量的開放數據活動。用戶可以通過篩選國家、數據來源網址、數據主題分類、數據標簽、數據格式和許可協議來瀏覽數據集。從數據收集和數據發(fā)布, 到數據整合和數據利用, 再到數據使用許可協議, EDP建立了成熟完善的數據管理體系。
?。?)豐富的數據源整合
EDP最初的數據來源是歐洲各國國家級的開放數據門戶, 現在也逐漸開始收集地區(qū)性的開放數據門戶以及特殊主題領域的平臺的數據, 目前EDP上發(fā)布的數據來源于歐洲34個國家的69個網站, 數據來源網站還在不斷增加。《2016年歐洲開放數據門戶成熟度》報告指出71%的EU28+國家 (歐盟28個國家以及挪威、瑞士和列支敦斯登) 除了國家級的開放政府數據門戶以外, 都有地區(qū)性的數據門戶, 如德國是一個聯邦制國家, 有很多地區(qū)性的數據門戶, 但是國家平臺卻無法及時跟蹤所有的子平臺, 因此沒有鏈接到所有地區(qū)性數據門戶。奧地利則是讓所有地區(qū)共同管理國家級的平臺, 因此責任就被不同的地區(qū)分攤了, 所有地區(qū)性平臺的數據也被整合到了國家級平臺當中。同平臺數據的整合可以提高數據的可獲取性和可見性, EDP在其《數據提供者指南》 (Data Supplier Guidelines) 中詳細說明了政府機構網站想要在EDP上共享其數據的步驟和方法, 明確規(guī)定了其收集數據的要求, 方便想被EDP收集數據的地區(qū)性或特殊領域的平臺更快捷地通過EDP來發(fā)布數據。
?。?)政府數據發(fā)布標準化
《數據提供者指南》中指出想被EDP收集數據的平臺必須要提供元數據, 而并不只是數據本身, 且元數據標準最好是CKAN或INSPIRE或DCAT-AP, 如果是其他標準則需詳細描述。此外元數據的格式應為XML或JSON, 同時用CKAN或OAI-PMH或dump file的API來檢索數據。除了相關的技術要求之外, EDP也提出了一些操作要求, 比如數據的收集應該在一個固定的時間, 還要保證被收集的數據集的質量, 避免數據集的重復等。EDP還發(fā)布了元數據質量儀表盤, 從數據的可訪問性、機器可讀性和對DCAT-AP規(guī)格的遵從性三個方面對數據來源網站元數據質量進行監(jiān)控, 每周定期更新檢查結果。網站的SPARQL管理工具還允許用戶通過SPARQL查詢語言檢索EDP中的元數據。
?。?)開放數據利用案例分享
EDP平臺鼓勵用戶分享他們利用開放數據的故事, 以MELODIES項目為例, 該項目聯合了來自歐洲8個不同國家的16個學界和業(yè)界機構, 基于歐洲的開放數據提供了8項創(chuàng)新的可持續(xù)的數據服務。其中一項名為“歐洲歷史洪水災害數據庫”的服務就整合了衛(wèi)星圖像數據、洪水災害發(fā)生的地址和日期數據, 以及在洪水發(fā)生時市民通過社交媒體產生的數據, 用戶可以從中找到過去20年內關于某一次特定的洪水災害的圖像、地圖、造成的損失、洪水的級別等相關信息。截止到2017年3月, EDP共發(fā)布了160個數據利用案例, 比如荷蘭的Go OV應用整合了實時旅游信息等多種數據源, 為用戶在荷蘭的旅行提供便利;英國的My Society應用提供了一個開源的信息平臺, 允許用戶向任何一個政府機構發(fā)送請求, 并且將請求和回復都開放在網上;意大利的Smart Parking Systems應用整合了地理和停車數據, 引導用戶到附件最近的可用的停車場, 并提供了可直接付款的渠道。
?。?)明確的數據許可協議
EDP網站的許可幫助 (Licence Assistant) 部分, 提供了32種許可類型的具體描述。從EDP已發(fā)布的數據集數量來看, 較常用的許可協議是OGL2.0、CC-BY和DL-DE-BY 2.0。OGL2.0是英國的開放政府許可協議2.0版 (Open Government Licence version 2.0) , 允許用戶自由地復制、發(fā)布、分發(fā)和傳播信息、改編信息、商業(yè)或非商業(yè)地使用信息, 比如將信息和其他信息結合使用或者將信息用在自己的產品中。CC-BY是知識共享 (Creative Commons) 許可協議中的署名許可協議, 允許分發(fā)、再混合、改編和創(chuàng)建自己的作品, 可用于商業(yè)領域和非商業(yè)領域, 是適用范圍最廣的一個許可協議。DL-DE-BY 2.0是德國數據署名許可2.0版 (Data licence Germany–attribution–version 2.0) , 允許用戶復制、發(fā)布、加工和傳播信息, 或將自己的數據和其他數據結合形成新的獨立數據集, 或者將數據用于公共和非公共電子網絡中的產品和應用中, 同樣也適用于商業(yè)或非商業(yè)的目的。
五、歐洲開放政府數據實踐發(fā)展經驗
從2012年“上海市政府數據服務網”試運營開始, 北京、武漢、青島、重慶、貴陽、廣州等城市也陸續(xù)建立起開放政府數據門戶, 浙江省和廣東省也分別于2015年9月和2016年10月建立了省級的開放政府數據門戶。2015年9月《國務院關于印發(fā)促進大數據發(fā)展行動綱要的通知》正式發(fā)布, 明確2018年構建跨部門的政府數據統一共享交換平臺, 這將進一步加快全國各級政府開放政府數據門戶的搭建。通過對歐洲開放政府數據共建共享的模式和歐洲數據門戶的數據管理體系的研究, 總結出對我國政府數據開放實踐領域的有益借鑒。
(1)數據開放和隱私保護并重
2016年9月, 依據《國務院關于印發(fā)促進大數據發(fā)展行動綱要的通知》, 國務院又發(fā)布了《國務院關于印發(fā)政務信息資源共享管理暫行辦法的通知》, 對政府信息資源的提供、利用和共享又提出了一些具體的要求。貴州省政府也于2016年11月印發(fā)了《貴州省政務數據資源管理暫行辦法》], 上海也于2016年5月發(fā)布了《上海市政務數據資源共享和開放2016年度工作計劃》。但是國內只有極少地區(qū)制定了本地的數據開放計劃, 并且我國還沒有制定專門的個人隱私保護方面的法律。早在1995年, 歐盟就制定了《歐盟數據保護指令》, 在2016年正式發(fā)布的《一般數據保護條例》中也明確提出數據主體應享有“被遺忘權”, 即數據主體有權要求數據控制者刪除與其相關的個人數據的權利??梢婋[私保護的重要性和必要性。我國在不斷推進數據開放的同時, 也應重視個人隱私信息的保護, 加快相關的立法進程。
?。?)專項資金促進數據開發(fā)利用
在“地平線2020”2017年的工作計劃中, “開放研究數據試點”項目將涵蓋“地平線2020”的所有領域, 進一步推動科研數據的開放。雖然目前我國一些地方政府也舉辦了有獎數據競賽活動, 比如廣東省的公共交通大數據競賽、上海市的開放數據創(chuàng)新應用大賽以及深圳市的城市數據創(chuàng)新大賽, 鼓勵參賽者利用開放數據提出解決社會問題的方案, 并給予表現優(yōu)秀者一定的獎勵和資源支持。但政府僅通過舉辦數據競賽的方式鼓勵開放數據的發(fā)展, 在持續(xù)性上則會有所欠缺, 而設立專項資金則會有更好的效果。我國應設立數據開放的專項資金, 資助各地區(qū)開放政府數據門戶的建立, 或者某一主題領域數據, 如科研數據的開放共享, 這將有利于促進數據的再利用和增值推廣。
?。?)重視專門復合人才培養(yǎng)
EDP除了提供13個開放數據的相關課程外, 還發(fā)布了Open Data Goldbook, 從如何制定開放數據戰(zhàn)略、技術準備和實施、開放數據生命周期管理、開放數據監(jiān)測4個方面為數據發(fā)布者提供了具體的指導。英國在人才培養(yǎng)方面也做得很好, 2012年成立的開放數據研究所 (Open Data Institute, ODI) 開設了很多開放數據的培訓課程, 每周五還提供免費的線下開放數據講座。中國已有的開放數據門戶中較多的是發(fā)布數據, 而對于用戶教育這方面關注較少。如何幫助用戶更便捷更高效地發(fā)布數據、利用數據也是數據開放中需要解決的重要課題。目前我國雖然也有很多關于大數據培訓的課程, 但是多偏向于數據分析能力等的培養(yǎng), 并沒有針對開放數據專業(yè)人才的培養(yǎng)。荷蘭代爾夫特理工大學在edx平臺上開設了《開放政府》的課程, 2017年該課程也將繼續(xù)開設。
(4)完善數據管理和平臺評估
在對EDP平臺的調查中, 發(fā)現其本身對開放數據生命周期有明確的概念, 主要包括數據收集、數據準備、數據發(fā)布和數據維護4個子流程。同時也有完善的平臺評估體系, 《2016年歐洲開放數據門戶成熟度》報告就將EU28+國家按照其開放數據發(fā)展的成熟度水平分為了四大類, 分別是起步者、跟隨者、快速追趕者和領先者, 并從政治、法律、技術、財政等方面分析了在推進開放數據進程中可能面臨的障礙, 同時也提出了一些消除障礙的建議。我國大部分政府還處于數據生命周期中的數據準備階段, 在實踐領域也缺少對平臺的評估。但是學術界已經有一些研究者開始關注對數據門戶的評估問題, 比如鄭磊和高豐建立了由3大層面13個維度構成的評估框架, 并對國內多個地方的開放政府數據實踐進行了比較。我國應該重視對開放數據生命周期的全程管理并逐步開展對數據門戶的評估, 這樣才能提高數據的質量和利用率, 并更準確地了解國內數據開放的發(fā)展水平以及存在的問題。
