在台灣長大的Meta AI研究員陳鵬仁,平常跟我們一樣講國語(華語),但他70歲的父親陳聖獎是南部人,平常說慣了台語。陳鵬仁說,父親經常覺得用國語進行複雜對話時很麻煩。「我希望父親能用台語與每個人交流,這是他說的最舒服的語言。」
有了這個初衷,陳鵬仁(Peng-Jen Chen)在Meta AI團隊中,利用AI語言模型技術,在台語(Hokkien)和英語之間進行翻譯。Meta執行長祖克柏(Mark Zuckerberg)周三(19日)在個人臉書發表了一段影片,該影片目前已有超過15萬觀看次數,並有近2萬人轉發分享。
祖克柏說:「我們團隊開發了第一個語音到語音的AI翻譯系統,該系統適用於一般口語而不是書面化的語言。」接著,他請AI研究員陳鵬仁進行展示。
陳鵬仁隨即以台語說道:「哩賀馬克!你甘知影,咱ㄟ團隊打造出第一個支持口語語言的華語系統。」
此刻,當陳鵬仁說完這句台語時,祖克伯應該是霧煞煞,完全聽不懂他在說甚麼!
Meta AI語言翻譯系統立即派上用場,把這句台語翻譯成英語。
祖克柏接著說:「這真是很棒!Peng-Jen Chen講的語言目前有數千萬人使用,但由於沒有標準的書寫系統,因此構建這樣的翻譯系統非常具有挑戰性!」
陳鵬仁回答:「沒錯,在我小時候,學校沒有教閩南語,這個語言是透過口語一代一代傳下來的!」
祖克柏追問:「你會和你的孩子說閩南語嗎?」
陳鵬仁回答:「當然會!還有我的父母也會一起。」
祖克柏接著說:「好吧!感謝您的研究,現在我們都可以理解了。」
在「台語和英語之間進行翻譯」是一項艱鉅的任務,因為華語、英語和西班牙語等都是書面和口頭語言,但在華人中廣泛使用的「台語」卻是一種口頭式的語言。陳鵬仁和其團隊是最早使用AI為台語等缺乏正式書寫系統的語言構建翻譯系統的人之一。除了台語之外,該團隊未來計劃把更多不成文的語言納入即時翻譯的研究項目。讓數千萬人不需要訴諸文字,便可用母語跟全世界的人溝通,就像陳鵬仁的父親陳聖獎一樣。
Meta表示,使用計算機翻譯語言並不是新概念,但以前的努力主要集中在書面文字上。然而,在全球7000多種現存語言中,有超過40%屬於口頭語言,沒有標準書寫系統。就像「台語」不但缺乏大量文本進行訓練的工具,此類翻譯人員也非常稀少,換言之,資源匱乏的語言很難蒐集足夠的數據並加上註解來訓練AI模型。
為了解決這些問題,Meta研究團隊利用中文作為中間語言,先將英語或閩南語語音翻譯成中文,然後把它翻譯成閩南語或英語,並與會講閩南語的人密切合作,以確保翻譯正確無誤,再將對的句子添加到用於訓練AI模型的數據庫中。此模型目前一次只能翻譯一個完整的句子,模型的原始碼也將免費開放,允許其他人在他們的工作基礎上進行重製。
祖克柏曾說:「以任何語言與任何人交流!AI將在我們有生之年實現這個願景。」