習近平著作不僅出中文版,還被譯為多國語文。路透社資料照片
生成式人工智慧技術飛速發展,但在中國的AI生成內容則因政治因素受到嚴密管控。英國《金融時報》報導,北京當局正研發可貫徹「習思想」的聊天機器人,確保可打造出堪比美國ChatGPT的生成式AI模型,同時又可嚴密控制言論自由。
報導指出,中國網際網路主管機關「中央網絡安全和信息化委員會辦公室」旗下刊物20日在微信發文稱,網信辦旗下研究機構正研發一款AI大型語言模型,其語料庫包括《習近平新時代中國特色社會主義思想》等各種官方文本。貼文稱,這些語料的「專業知識與權威性確保了生成內容的專業性」。
報導引述知情人士指出,這套新模型目前僅在網信辦研究機構「中國網絡空間研究院」使用,但最終將公開發布。新模型可回答問題、生成報告、摘要資訊、進行中英翻譯。
《金融時報》指出,建立這套大型語言模型,是中國當局近年來將「習思想」以各種型式滲入政治、經濟、文化領域的作法之一。
中國當局已出版多本以習近平為名的書籍,它們都陳列在書店中的重要位置,長年穩坐暢銷書排行榜。騰訊、網易等熱門新聞平台長年將頭條位置留給官方發布的文章,年僅10歲的小學生就必須學習習近平的「政治哲學」。
當局還推出了「學習強國」app,全國近1億名共產黨員都須藉此學習及接受測驗。2018年,習近平思想還被寫入中國憲法。
中國網信辦也負責管理生成式AI模型,去年七月公佈《生成式AI服務管理暫行辦法》,該辦法規定生成式AI須貫徹「社會主義核心價值觀」,不得生成煽動顛覆國家政權、推翻社會主義制度,危害國家安全和利益、破壞國家統一和社會穩定的內容,還要求開發這些模型的公司對生成內容負責。
《金融時報》指出,這些規定對於開發商來說是艱巨挑戰,因爲訓練語言模型的語料來源多為英文,中文語料相對缺乏,導致生成式AI很容易踩紅線。
對此,中國科技巨頭百度和阿里巴巴都極力確保其生成式A I模型避免觸及敏感問題,用戶若詢問敏感話題,它們通常會要求用戶重啟對話。
為此,網信辦旗下的非營利組織「中國網絡空間安全協會」去年12月發布涵蓋1億條語料的語料庫,供各開發團隊進行訓練。《金融時報》指出,這套語料庫內容主要涵蓋政府法規和政策文件、國家媒體報導和官方出版物,光是在其中一套文件中,就提及「習近平」8萬6000次,其中一段話是「確保在思想上政治上行動上同以習近平同志爲核心的黨中央保持高度一致」。