北京擬整合現有開源中文預訓練數據集和高質量互聯網中文數據


【資料圖】

北京商報訊(記者 楊月涵)5月16日,據北京市科委官網,北京出臺《北京市促進通用人工智能創新發展的若干措施(2023-2025年)(征求意見稿)》,針對目前大模型訓練高質量中文語料占比過少,不利于中文語境表達及產業應用的問題,征求意見稿提到,整合現有開源中文預訓練數據集和高質量互聯網中文數據并進行合規清洗。同時持續擴展高質量多模態數據來源,建設合規安全的中文、圖文對、音頻、視頻等大模型預訓練語料庫,通過北京國際大數據交易所社會數據專區進行定向有條件開放。

(責任編輯:冀文超 )
關鍵詞:
圖片版權歸原作者所有,如有侵權請聯系我們,我們立刻刪除。
新化月報網報料熱線:886 2395@qq.com

相關文章

你可能會喜歡

最近更新

推薦閱讀