近年來,人工智能大模型快速迭代與深度應用,正加速重塑各行業(yè)發(fā)展模式,數(shù)據(jù)作為人工智能核心三要素之一,其質量直接決定模型的訓練效果與應用價值,高質量數(shù)據(jù)集已成為驅動AI模型性能提升、賦能千行百業(yè)的關鍵基礎資源。
根據(jù)國家數(shù)據(jù)局指導發(fā)布的《高質量數(shù)據(jù)集建設指引》,高質量數(shù)據(jù)集是指:經(jīng)過采集、加工等數(shù)據(jù)處理,可直接用于開發(fā)和訓練人工智能模型,能有效提升模型表現(xiàn)的數(shù)據(jù)的集合。數(shù)據(jù)顯示,截至2025年年底,全國范圍內已建成的高質量數(shù)據(jù)集超過10萬個,總體量突破890PB,這一方面彰顯了國家在高質量數(shù)據(jù)集建設上的堅定決心,另一方面也預示著高質量數(shù)據(jù)集未來將在各領域發(fā)揮更多作用。
為加快推動高質量數(shù)據(jù)集建設,充分發(fā)揮我國海量數(shù)據(jù)資源和豐富應用場景的優(yōu)勢,國家和地方層面紛紛發(fā)力,密集啟動高質量數(shù)據(jù)集征集、典型案例評選及先行先試項目,旨在匯聚一批具備先進性、創(chuàng)新性、示范性、合規(guī)性的數(shù)據(jù)資源,總結推廣先進建設經(jīng)驗,進一步釋放數(shù)據(jù)要素價值。據(jù)湖南國脈原道數(shù)據(jù)科技有限公司研究團隊不完全統(tǒng)計,截至目前網(wǎng)上公開的高質量數(shù)據(jù)集征集材料涵蓋國家及40余個地區(qū),共計60余份。為幫助相關單位精準掌握各地高質量數(shù)據(jù)集申報要求,規(guī)避申報過程中的難點痛點,研究團隊對申報主體資質、征集方向、數(shù)據(jù)集要求等核心要點進行系統(tǒng)梳理、提煉匯總,并提出了幾點申報建議,供各相關單位申報參考、借鑒使用。
通過公開渠道共收集涵蓋國家、省、市、縣(市)四個層級,合計42個地區(qū)的69份高質量數(shù)據(jù)集征集文件,具體情況如下:
1.從發(fā)布機構來看,近80%的征集文件由各級數(shù)據(jù)部門發(fā)布,體現(xiàn)了數(shù)據(jù)主管部門的核心統(tǒng)籌推動作用,工信、住建部門主要發(fā)布與其相關專項行業(yè)領域高質量數(shù)據(jù)集征集文件,呈現(xiàn)出“數(shù)據(jù)部門主導、行業(yè)部門協(xié)同”的特點。

2.從發(fā)布時間來看,2024年為啟動階段,征集量較少,湖北省、山東省、廣東省、河北省4個地區(qū)共計發(fā)布了7份征集文件;2025年進入發(fā)布高峰期,國家數(shù)據(jù)局綜合司于當年6月發(fā)布了《關于征集高質量數(shù)據(jù)集典型案例的通知》,地方層面也積極推進,全年共發(fā)布44份征集文件,成為高質量數(shù)據(jù)集征集工作的核心推進期;2026年征集工作持續(xù)深化,截至4月初已發(fā)布18份征集文件,展現(xiàn)出良好的延續(xù)性與深入態(tài)勢。

3.從發(fā)布地區(qū)來看,湖北省、廣東省、山東省發(fā)布的征集文件數(shù)量較多,且三地均從2024年就率先啟動征集工作;其次為福建省、浙江省、江蘇省等地??傮w而言,東部沿海區(qū)域征集文件發(fā)布最為密集,其發(fā)布數(shù)量占總數(shù)的50%以上,與該區(qū)域數(shù)字經(jīng)濟發(fā)展水平高、數(shù)據(jù)資源富集、政策推進力度大密切相關。
1.主體資質:大部分要求申報主體為對應申報地轄區(qū)注冊登記的企事業(yè)單位、科研機構、高等院校、社會組織等,具有獨立法人資格,個別地區(qū)未限制主體性質,如海南省住建廳、湖北省住建廳2026年2月份發(fā)布的征集公告明確單位和個人均可;此外,部分地區(qū)還要求稅務征管關系或生產(chǎn)經(jīng)營活動在轄區(qū)范圍內。
2.經(jīng)營與信用狀況:大部分要求近三年經(jīng)營狀況良好,在信用、質量、安全、環(huán)保等方面無不良記錄,部分地區(qū)還要求財務管理制度健全,近三年未發(fā)生重大網(wǎng)絡、數(shù)據(jù)安全事件等。
3.能力與資源:部分地區(qū)對申報主體專業(yè)能力與資源保障提出要求,如申報單位應從事數(shù)字經(jīng)濟領域研發(fā)、制造或應用,或具備行業(yè)領先的數(shù)據(jù)匯聚能力、技術先進的數(shù)據(jù)治理能力,配備穩(wěn)定專業(yè)的技術團隊、具備持續(xù)的資金投入等。
4.申報形式:允許聯(lián)合申報為多數(shù)地區(qū)通行規(guī)則,須明確牽頭單位及各成員權責分工;個別地區(qū)對聯(lián)合體成員數(shù)量提出限制要求,如江蘇省數(shù)據(jù)局2026年征集文件要求聯(lián)合申報成員單位最多3家;少數(shù)地區(qū)不接受聯(lián)合申報,如上海市數(shù)據(jù)局2025年征集文件、湖南省數(shù)據(jù)局2026年征集文件。
5.其他限制性要求:一是重復申報限制,江蘇省、上海市等地區(qū)明確,已入選2025年度國家數(shù)據(jù)局行業(yè)高質量數(shù)據(jù)集先行先試項目的,不得在本批次重復申報;二是申報數(shù)量限制,部分地區(qū)對同一單位在同一批次申報中牽頭或參與項目數(shù)量設上限,如北京市不超過5個、寧波市僅限1個,避免過度申報擠占資源。
1.核心征集領域:以“數(shù)據(jù)要素×”12個重點行業(yè)為核心征集領域,包括工業(yè)制造、現(xiàn)代農業(yè)、商貿流通、交通運輸、金融服務、科技創(chuàng)新、文化旅游、醫(yī)療健康、應急管理、氣象服務、城市治理、綠色低碳,加上教育教學、智慧能源、人力資源、公共安全等常駐領域。
2.創(chuàng)新熱點領域:創(chuàng)新熱點征集方向集中在低空經(jīng)濟、具身智能、智能駕駛、生物制造、智慧海洋等新興領域,各地也會結合本地產(chǎn)業(yè)特色(如上海市“五個中心”相關行業(yè)領域、湖南的“4×4”現(xiàn)代化產(chǎn)業(yè)體系、蘇州的“1030”產(chǎn)業(yè)、廣州的“12218”體系)細化細分領域,貼合區(qū)域產(chǎn)業(yè)布局。
3.行業(yè)專項征集:部分行業(yè)開展了專項高質量數(shù)據(jù)集征集,精準破解重點行業(yè)數(shù)據(jù)供給不足問題,提升數(shù)據(jù)集的針對性和應用價值。目前已開展專項征集的行業(yè)為住建行業(yè)(圍繞城市治理、住房與房地產(chǎn)、城鄉(xiāng)建設、建筑業(yè)等細分領域)和工業(yè)和制造業(yè)領域(圍繞行業(yè)研發(fā)設計、中試驗證、生產(chǎn)制造、經(jīng)營管理、產(chǎn)業(yè)協(xié)同等關鍵場景)。
1.實施進程:各地對數(shù)據(jù)集建設階段要求存在差異化標準,以已建成并具備常態(tài)化更新能力為核心導向。多數(shù)地區(qū)要求申報數(shù)據(jù)集已完成建設,建立穩(wěn)定、可持續(xù)的定期更新機制;部分地區(qū)允許在建或擬建數(shù)據(jù)集申報,但需明確建設計劃與完工時限,如溫州市要求2026年6月底前完成,武漢市要求2026年10月31日前完成。
2.規(guī)模量級:整體以實用夠用、支撐應用為原則,多數(shù)地區(qū)未設置硬性數(shù)據(jù)條數(shù)或體量門檻,統(tǒng)一強調數(shù)據(jù)集需達到一定規(guī)模與量級,可滿足模型訓練、算法驗證、業(yè)務落地等實際使用需求。下表整理了部分明確數(shù)據(jù)規(guī)模地區(qū)的要求:
3.數(shù)據(jù)質量:大部分地區(qū)未提出明確數(shù)據(jù)質量要求,普遍要求數(shù)據(jù)在真實性、完整性、規(guī)范性、準確性、及時性、一致性、相關性方面達到較高水準;少數(shù)地區(qū)明確量化要求,如北京市工信局2026年高質量數(shù)據(jù)集需求清單按領域細分質量標準,貴州省大數(shù)據(jù)局2025年征集文件要求數(shù)據(jù)重復率≤5%、近5年數(shù)據(jù)占比≥50%;寧波市發(fā)布《高質量數(shù)據(jù)集建設評價體系指引(試行)》,對真實性、完整性、規(guī)范性、準確性等維度制定具體評價細則。
此外,根據(jù)全國數(shù)據(jù)標準化技術委員會2025年8月發(fā)布的《高質量數(shù)據(jù)集質量 評測規(guī)范》,高質量數(shù)據(jù)集質量評測涵蓋三大維度:說明文檔、數(shù)據(jù)質量和模型應用。每個維度下設若干子指標,采用百分制評分,要求各維度得分均達到90分及以上方可認定為高質量數(shù)據(jù)集。
4.應用價值:申報數(shù)據(jù)集需場景落地、價值可證、示范可推。應具有實際的業(yè)務應用場景,具備一定的先進性、創(chuàng)新性、規(guī)模性和示范性,并取得了一定的經(jīng)濟效益或社會效益,成果可復制、可推廣,能夠支持開展人工智能大模型開發(fā)訓練或支撐專業(yè)算法應用,具備可持續(xù)更新或服務能力。
5.安全合規(guī):合規(guī)性是申報的第一生命線,所有數(shù)據(jù)集建設必須嚴格遵守《數(shù)據(jù)安全法》《個人信息保護法》等法律法規(guī)要求;數(shù)據(jù)來源合法,權屬清晰,申報單位對申報項目所用的技術、產(chǎn)品擁有明晰的知識產(chǎn)權,無知識產(chǎn)權糾紛;不涉及個人隱私、商業(yè)秘密、國家秘密;不得包含違反社會主義核心價值觀的內容。
6.測試樣本:部分地區(qū)要求隨申報提供測試樣本,數(shù)量要求100-1000條不等,如北京市要求不少于1000條樣本數(shù)據(jù),安徽省要求200-500條,湖北省要求不少于100條。
1.政策密集,窗口期有限:各地征集公告發(fā)布時間申報窗口通常較短,通常為15~30天,部分緊急征集甚至不足一周,對申報單位的響應速度提出了挑戰(zhàn)。有意向的單位提前準備,建立常態(tài)化跟蹤機制,密切關注屬地大數(shù)據(jù)局、工信部門、發(fā)改部門及國家級相關平臺的官方通知。
2.標準趨嚴,質量優(yōu)先:從規(guī)模要求到質量評測,各地對數(shù)據(jù)集的“量”和“質”均提出更高門檻。建議申報單位在數(shù)據(jù)清洗、標注、合規(guī)審查等環(huán)節(jié)引入專業(yè)評測工具或第三方服務,確保達到高質量標準。同時,建立質量自評體系,留存數(shù)據(jù)溯源、清洗日志、抽樣檢驗等過程記錄。對于涉及敏感信息的數(shù)據(jù),還需完成脫敏處理及合規(guī)性審查。
3.場景驅動,價值導向:單純“堆數(shù)據(jù)”已不具競爭力,“數(shù)據(jù)+場景+應用+成效”成為評審核心,能支撐大模型訓練、解決行業(yè)痛點、產(chǎn)生實際價值的數(shù)據(jù)集更易入選。申報材料需突出實際業(yè)務場景、落地成效、可推廣性,提供量化成效數(shù)據(jù),如模型精度提升比例、效率提升幅度、成本降低金額等,附上應用案例、用戶證明、合作協(xié)議、獲獎證書等材料,增強說服力。
4.合規(guī)先行,規(guī)避風險:數(shù)據(jù)來源合法性、知識產(chǎn)權歸屬、隱私保護及安全合規(guī)是評審中的“一票否決項”。建議提前開展數(shù)據(jù)資產(chǎn)盤點與合規(guī)審計,確權、授權、溯源全程留痕,完善授權協(xié)議、采購合同、知識產(chǎn)權證明;建立數(shù)據(jù)安全管理制度,完成等保備案、數(shù)據(jù)分類分級、隱私保護認證,配備安全防護措施。
5.聯(lián)合申報,優(yōu)勢互補:高質量數(shù)據(jù)集的構建往往需要數(shù)據(jù)資源、行業(yè)知識、技術能力等多方協(xié)作,對于數(shù)據(jù)資源豐富但技術能力不足,或技術領先但數(shù)據(jù)分散的單位,可考慮聯(lián)合體申報,整合互補資源,提升數(shù)據(jù)集綜合質量,但需注意,各地對聯(lián)合申報的成員數(shù)量、牽頭單位資質的限制。
來源:湖南國脈原道數(shù)據(jù)科技有限公司研究團隊
更多精彩,請關注“官方微信”

國脈,是營商環(huán)境、數(shù)字政府、數(shù)字經(jīng)濟、低空經(jīng)濟、民營經(jīng)濟、產(chǎn)業(yè)發(fā)展、數(shù)字企業(yè)等領域的專業(yè)提供商。創(chuàng)新提出"軟件+咨詢+數(shù)據(jù)+平臺+創(chuàng)新業(yè)務"五位一體服務模型,擁有營商環(huán)境督查與考核評估系統(tǒng)、政策智能服務系統(tǒng)、數(shù)據(jù)資源目錄系統(tǒng)、數(shù)據(jù)基因、數(shù)據(jù)母體、數(shù)據(jù)智能評估系統(tǒng)等幾十項軟件產(chǎn)品,長期為中國城市、政府和企業(yè)提供專業(yè)咨詢規(guī)劃和數(shù)據(jù)服務,廣泛服務于發(fā)改委、營商環(huán)境局、考核辦、數(shù)據(jù)局、行政審批局等政府客戶、中央企業(yè)和高等院校。
