2025.12.24 18:23 臺北時間

台灣主權AI訓練語料庫今上線 收集6億多個詞元

mm-logo
時事
台灣主權AI訓練語料庫今上線 收集6億多個詞元
0:00/0:00

【要聞中心/綜合報導】數位發展部今天(24日)發布台灣主權AI訓練語料庫上線,廣納高品質、具在地化的正體中文語料,已有200多個政府單位投入,上架2000多筆資料集、超過6億Tokens(詞元,AI處理文字的最小單位,一個中文字、英文一個單詞),有需求者可至台灣主權AI訓練語料庫

數發部次長侯宜秀表示,人工智慧(AI)發展的護城河,在於資料與人才。在資料面向,數發部已提出《促進資料創新利用發展條例》草案,建置台灣主權AI訓練語料庫,強化AI發展基礎。

數發部資料創新司司長莊明芬指出,台灣主權AI訓練語料庫收錄各機關具台灣文化特色的高品質資料集,內容涵蓋語言、文化、教育、生物、地理環境等領域,這些資料就像AI的教材,幫助AI模型更了解台灣,學會更自然、更貼近台灣社會的語言表達能力。

莊明芬舉例,教育部提供的語言辭典資料涵蓋台語、客語及國語等,有助強化AI模型的用詞精準度與語意理解能力;文化部上架的公共藝術及文化資產類型資料集,展現台灣豐富、多元的藝文風貌,可作為訓練AI模型認識台灣文化內容的重要素材。

莊明芬表示,為了讓政府機關與民間能夠「放心釋出資料、安心使用語料」,數發部與經濟部智慧財產局合作推出「台灣主權AI訓練語料授權條款-第1版」,讓語料釋出有明確的授權依據,減少AI訓練資料可能產生的著作權爭議。

莊明芬說明,AI模型訓練等需求者可上台灣主權AI訓練語料庫(https://taic.moda.gov.tw),申請帳號並上傳相關文件,語料庫維運管理單位,在收受申請案後7個工作日內完成審查,並以電子郵件通知帳號啟用;為確保帳號安全性及有效性,帳號啟用後,每3個月須重新驗證憑證。

侯宜秀指出,台灣主權AI訓練語料庫第一階段是中央機關先行,各政府部門上傳資料,只要有新資料加入,語料庫就會同步更新;第二階段為地方政府投入;第三階段將與民間團體合作,未來也希望有更多開發者、研究單位、學校及國際AI開發公司使用,讓大語言模型更貼近台灣需求,也確保有足夠的資料讓產業運用。

數位發展部24日舉行記者會,宣布台灣主權AI訓練語料庫上線,數發部次長侯宜秀(左)、數發部資料創新司司長莊明芬(右)出席。中央社
數位發展部24日舉行記者會,宣布台灣主權AI訓練語料庫上線,數發部次長侯宜秀(左)、數發部資料創新司司長莊明芬(右)出席。中央社
更新時間|2025.12.24 18:30 臺北時間
延伸閱讀

更多內容,歡迎 鏡週刊紙本雜誌了解內容授權資訊

活動期間,動態雜誌免費線上閱讀

線上閱讀

更多內容,歡迎 鏡週刊紙本雜誌了解內容授權資訊

活動期間,動態雜誌免費線上閱讀

線上閱讀