近期,國(guó)家數(shù)據(jù)局發(fā)布首批104個(gè)具有推廣示范價(jià)值的高質(zhì)量數(shù)據(jù)集典型案例,中國(guó)電信申報(bào)的“網(wǎng)絡(luò)大模型高質(zhì)量數(shù)據(jù)集”從663個(gè)案例中脫穎而出。這是繼今年5月榮膺國(guó)務(wù)院國(guó)資委首批30項(xiàng)央企人工智能行業(yè)高質(zhì)量數(shù)據(jù)集優(yōu)秀建設(shè)成果后,中國(guó)電信在該領(lǐng)域取得的又一成果,充分彰顯了在推動(dòng)數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展中的領(lǐng)軍企業(yè)責(zé)任與擔(dān)當(dāng)。
中國(guó)電信網(wǎng)絡(luò)大模型高質(zhì)量數(shù)據(jù)集旨在精準(zhǔn)破解大模型在通信行業(yè)落地應(yīng)用時(shí)面臨的通用性與專業(yè)性鴻溝、知識(shí)沖突與幻覺、深度數(shù)據(jù)匱乏等核心挑戰(zhàn)。網(wǎng)絡(luò)大模型通過構(gòu)建科學(xué)體系化的高質(zhì)量數(shù)據(jù)集,為云網(wǎng)運(yùn)營(yíng)的全面AI化及自智水平提升奠定了堅(jiān)實(shí)的數(shù)據(jù)基石,不僅顯著賦能企業(yè)自身發(fā)展,更惠及廣大行業(yè)客戶,有力促進(jìn)了產(chǎn)業(yè)鏈的協(xié)同共進(jìn)。
中國(guó)電信網(wǎng)絡(luò)大模型高質(zhì)量數(shù)據(jù)集以“5+2”云網(wǎng)知識(shí)體系為堅(jiān)實(shí)基礎(chǔ),以組織、流程、運(yùn)營(yíng)和安全為四大支柱,確立了科學(xué)體系化的建設(shè)方法。通過深度整合通信領(lǐng)域多源復(fù)雜數(shù)據(jù),打造了6TB大規(guī)模、高質(zhì)量、多模態(tài)領(lǐng)域數(shù)據(jù)集,并構(gòu)建數(shù)百個(gè)場(chǎng)景化知識(shí)庫。統(tǒng)一建設(shè)的啟明知識(shí)管理平臺(tái)提供高效數(shù)據(jù)集加工工具、分鐘級(jí)建庫工具、精準(zhǔn)數(shù)據(jù)增強(qiáng)服務(wù)及動(dòng)態(tài)管理能力,知識(shí)增強(qiáng)服務(wù)檢索量已突破千萬次,準(zhǔn)確率穩(wěn)定在90%以上。
在技術(shù)層面,網(wǎng)絡(luò)大模型團(tuán)隊(duì)融合多源智能解析、動(dòng)態(tài)清洗、多級(jí)去重及數(shù)據(jù)合成等先進(jìn)技術(shù),研發(fā)出高精度的隱私保護(hù)算法與高效知識(shí)圖譜流水線。首創(chuàng)的SIE(來源 - 索引 - 編碼)分層建庫技術(shù),實(shí)現(xiàn)了多模態(tài)數(shù)據(jù)的分鐘級(jí)建庫入庫;創(chuàng)新的多模態(tài)混合檢索架構(gòu)及重排序技術(shù),顯著提升了隱性知識(shí)發(fā)現(xiàn)效率與召回準(zhǔn)確率,構(gòu)建起通信行業(yè)高質(zhì)量數(shù)據(jù)治理的典范。
網(wǎng)絡(luò)大模型高質(zhì)量數(shù)據(jù)集首創(chuàng)SIE分層建庫技術(shù),打通實(shí)時(shí)數(shù)據(jù)與大模型動(dòng)態(tài)交互鏈路;依托“5+2”知識(shí)體系,實(shí)現(xiàn)數(shù)據(jù)精準(zhǔn)治理與高安全性知識(shí)轉(zhuǎn)化;創(chuàng)新性地構(gòu)建了“生產(chǎn)-規(guī)劃-采集-加工-應(yīng)用-評(píng)估-反饋”的全生命周期閉環(huán)運(yùn)營(yíng)模式,建立了從集團(tuán)到省公司的多級(jí)協(xié)同機(jī)制,保障了數(shù)據(jù)集的持續(xù)優(yōu)化與價(jià)值釋放。通過職責(zé)分工、質(zhì)量追溯、周期聯(lián)動(dòng)等創(chuàng)新管理手段,確保了數(shù)據(jù)集的動(dòng)態(tài)更新與高質(zhì)量維護(hù),有力支撐了數(shù)百個(gè)知識(shí)庫的高效穩(wěn)定運(yùn)行。