內(nèi)蒙古自治區(qū)蒙古文信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室“探秘”——當(dāng)蒙古語(yǔ)“牽手”人工智能
“蒙古文AI云服務(wù)平臺(tái)”獲得2020年中國(guó)CCF科學(xué)技術(shù)獎(jiǎng)。
飛龍教授(左二)與研究生一同探討科研問(wèn)題。
高光來(lái)教授(前排左一)指導(dǎo)實(shí)驗(yàn)室研究工作。
第三屆中蒙博覽會(huì)上,蒙古語(yǔ)智能交互機(jī)器人與參觀者進(jìn)行智能對(duì)話?!醣緢?bào)記者 白蓮
信息飛速發(fā)展的當(dāng)下,如何傳承保護(hù)好少數(shù)民族語(yǔ)言文字、圖書(shū)古籍以及音視頻文件,讓各族人民群眾盡享科技發(fā)展的紅利?在內(nèi)蒙古自治區(qū)蒙古文信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室(以下簡(jiǎn)稱實(shí)驗(yàn)室),有這樣一支年輕的團(tuán)隊(duì),他們視民族文化傳承與保護(hù)為己任,始終為蒙古文信息化發(fā)展付出不懈努力。
隨著全球首款綜合性蒙古文人工智能信息處理云服務(wù)平臺(tái)“蒙古文人工智能AI平臺(tái)”、國(guó)內(nèi)首款蒙古語(yǔ)“奧云AI合成主播”、國(guó)內(nèi)首款具備手寫(xiě)語(yǔ)音識(shí)別功能的蒙古文輸入法等一系列科研成果走出實(shí)驗(yàn)室,走入生產(chǎn)生活,不僅讓蒙古語(yǔ)與人工智能結(jié)合從理想照進(jìn)現(xiàn)實(shí),也助力蒙古語(yǔ)在教育、氣象、交通等多個(gè)領(lǐng)域的運(yùn)用,讓蒙古族文化在新時(shí)代重新煥發(fā)出新的活力。
讓計(jì)算機(jī)“能聽(tīng)會(huì)說(shuō)”蒙古語(yǔ)
如今,手機(jī)、電腦等終端成為人們獲取信息的重要手段。但對(duì)于蒙古族語(yǔ)言文字使用者來(lái)說(shuō),互聯(lián)互通的信息世界仍有限制,他們對(duì)蒙古文信息化有著迫切需求。
“由于蒙古文信息化工作在國(guó)內(nèi)外均沒(méi)有可借鑒或可運(yùn)用的技術(shù)資源,導(dǎo)致蒙古語(yǔ)言文字信息處理技術(shù)發(fā)展較為滯后,過(guò)去一直沒(méi)有功能齊全的蒙古文輸入法?!睂?shí)驗(yàn)室副主任飛龍教授告訴記者。在國(guó)內(nèi),國(guó)家通用語(yǔ)言信息處理技術(shù)相對(duì)成熟,團(tuán)隊(duì)利用通用語(yǔ)言優(yōu)勢(shì),廣泛學(xué)習(xí)借鑒相關(guān)信息化技術(shù)。
一切從零開(kāi)始,一點(diǎn)點(diǎn)累積。
韻律建模問(wèn)題是影響語(yǔ)音合成自然度和可懂度的重要因素。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,在海量文本和語(yǔ)音數(shù)據(jù)的支撐下,韻律建??梢匀〉昧钊藵M意的效果。但是,在面對(duì)蒙古語(yǔ)這樣的低資源語(yǔ)言時(shí),韻律建模往往充滿很多挑戰(zhàn)。
“第一,蒙古文韻律建模的數(shù)據(jù)規(guī)模有限,沒(méi)有海量的文本和語(yǔ)音數(shù)據(jù)用于模型的充分訓(xùn)練;第二,蒙古文獨(dú)特的黏著語(yǔ)特性導(dǎo)致蒙古文單詞具有復(fù)雜的構(gòu)詞特點(diǎn),現(xiàn)有的韻律建模方法并沒(méi)有充分挖掘與韻律表達(dá)相關(guān)的構(gòu)詞特點(diǎn)以用于蒙古文韻律模型的訓(xùn)練。”飛龍告訴記者,為了解決以上問(wèn)題,研究團(tuán)隊(duì)提出了一種蒙古文單詞表示特征強(qiáng)化方法,并融合自注意力機(jī)制進(jìn)行韻律標(biāo)簽的預(yù)測(cè)。實(shí)驗(yàn)結(jié)果證明,該方法可以有效提升蒙古文韻律建模的精度,并且最終提升蒙古語(yǔ)語(yǔ)音合成系統(tǒng)合成語(yǔ)音的整體表現(xiàn)。
飛龍教授現(xiàn)場(chǎng)為記者展示了這款具有自主知識(shí)產(chǎn)權(quán)的具備手寫(xiě)語(yǔ)音功能的蒙古文輸入法,該輸入法能夠?qū)⒂脩粽f(shuō)的蒙古語(yǔ),在短短幾秒內(nèi)轉(zhuǎn)換成對(duì)應(yīng)的文本內(nèi)容。同時(shí),還具有蒙古文手寫(xiě)識(shí)別輸入、蒙古文詞組聯(lián)想輸入等6項(xiàng)功能。目前,奧云蒙古文智能手機(jī)輸入法安裝量已超過(guò)45萬(wàn),并且得到了用戶的廣泛好評(píng)。
“自2007年實(shí)驗(yàn)室成立以來(lái),研究開(kāi)發(fā)了蒙古文信息檢索系統(tǒng)、蒙古文印刷體識(shí)別系統(tǒng)、蒙古文古籍檢索系統(tǒng)及以蒙古文為主的多語(yǔ)種電子辭典等軟件。實(shí)驗(yàn)室的基礎(chǔ)研究不斷提升,為實(shí)現(xiàn)計(jì)算機(jī)‘能聽(tīng)會(huì)說(shuō)’蒙古語(yǔ)奠定了基礎(chǔ)?!睂?shí)驗(yàn)室主任高光來(lái)教授表示。
“讓計(jì)算機(jī)‘開(kāi)口’說(shuō)話是計(jì)算機(jī)語(yǔ)音合成研究的成果。利用人工智能深度學(xué)習(xí)技術(shù),讓計(jì)算機(jī)不僅能聽(tīng)懂蒙古語(yǔ),還能‘說(shuō)’蒙古語(yǔ),是我們一直以來(lái)努力的方向?!憋w龍教授告訴記者。
2019年,國(guó)內(nèi)首款蒙古語(yǔ)“奧云AI合成主播”首秀成功,實(shí)現(xiàn)了蒙古語(yǔ)與人工智能和新聞采編的深度融合。
該AI合成主播采用蒙古語(yǔ)語(yǔ)音合成、蒙漢機(jī)器翻譯、人臉關(guān)鍵點(diǎn)檢測(cè)、人臉特征提取、人臉重構(gòu)、唇語(yǔ)識(shí)別、手勢(shì)姿態(tài)合成等多項(xiàng)前沿技術(shù),生成與真人無(wú)異的蒙古語(yǔ)AI分身模型,進(jìn)而提高信息表達(dá)和傳遞的效率。
近年來(lái),國(guó)家以及自治區(qū)大力推動(dòng)少數(shù)民族語(yǔ)言文字信息化工作,極大地推動(dòng)了實(shí)驗(yàn)室蒙古語(yǔ)智能信息化研發(fā)工作。高光來(lái)介紹,實(shí)驗(yàn)室成立的初衷,就是以蒙古文智能信息處理研究與蒙古文軟件開(kāi)發(fā)為重點(diǎn)。研究團(tuán)隊(duì)依托內(nèi)蒙古大學(xué)計(jì)算機(jī)學(xué)院,先后承擔(dān)了國(guó)家相關(guān)計(jì)劃專項(xiàng)課題,主要研究方向包括蒙古文智能信息處理、人工智能與模式識(shí)別、圖像處理與虛擬現(xiàn)實(shí)。
2019年,實(shí)驗(yàn)室推出了國(guó)內(nèi)首款蒙古文人工智能AI平臺(tái),該平臺(tái)免費(fèi)為用戶提供“蒙古文印刷體識(shí)別(OCR)”“蒙漢相互自動(dòng)機(jī)器翻譯”“傳統(tǒng)蒙古文與新蒙古文相互轉(zhuǎn)換”等一系列功能,為蒙古語(yǔ)言文字信息處理任務(wù)提供了全面的智能化解決方案。
目前,該平臺(tái)已在中國(guó)和蒙古國(guó)得到廣泛應(yīng)用,滿足了宣傳、教育、文化、司法、辦公、政務(wù)等領(lǐng)域的蒙古語(yǔ)言文字智能信息處理需求,提升了我國(guó)少數(shù)民族語(yǔ)言文字智能化水平,對(duì)于保護(hù)和傳承少數(shù)民族語(yǔ)言文字與特色文化,發(fā)展少數(shù)民族地區(qū)經(jīng)濟(jì)具有重要意義。
用信息化成果傳承保護(hù)文化古籍
目前,自治區(qū)很多單位保存有大量早期出版發(fā)行的蒙古文圖書(shū)、報(bào)紙和文檔,是非常珍貴的文獻(xiàn)資源?;谶@些資源,利用蒙古文信息處理技術(shù),建立蒙古文大數(shù)據(jù)資源庫(kù),對(duì)蒙古語(yǔ)言文字信息化發(fā)展具有重要意義。
這些寶貴文獻(xiàn)的數(shù)字化過(guò)程中,早期公開(kāi)的蒙古文印刷體識(shí)別系統(tǒng)僅能處理蒙古文白體印刷的文檔,識(shí)別精度比較低,難以滿足實(shí)際應(yīng)用需要。
面向蒙古文共享工程、蒙古文應(yīng)用推廣和蒙古文信息化相關(guān)建設(shè)需要,實(shí)驗(yàn)室做了大量工作,持續(xù)研發(fā)“蒙古文OCR系統(tǒng)”等應(yīng)用平臺(tái)和軟件產(chǎn)品,成為助力蒙古文數(shù)字化的有效途徑。
通過(guò)蒙古語(yǔ)言文字信息化建設(shè),推動(dòng)了區(qū)內(nèi)外相關(guān)企事業(yè)單位、科研院校之間的技術(shù)交流和相互協(xié)作,促進(jìn)了蒙古語(yǔ)言文字信息化在基礎(chǔ)研究、人才培養(yǎng)、技術(shù)研發(fā)、資源建設(shè)、推廣應(yīng)用等領(lǐng)域的全面發(fā)展,使信息化建設(shè)成果不斷惠及各族群眾。
“人工智能、‘互聯(lián)網(wǎng) ’時(shí)代,社會(huì)對(duì)信息相關(guān)專業(yè)人才的需求日益增長(zhǎng),而我們所做的,正是以完備的軟硬件設(shè)施與雄厚的師資力量,為國(guó)家培養(yǎng)和輸送高質(zhì)量人才?!痹诟吖鈦?lái)教授看來(lái),蒙古語(yǔ)人工智能發(fā)展的關(guān)鍵在于聚集培養(yǎng)優(yōu)秀科技人才。
高光來(lái)介紹,實(shí)驗(yàn)室的科研團(tuán)隊(duì)從最初的5-6人到現(xiàn)在的19人,其中17人具有博士學(xué)位,12人是從國(guó)內(nèi)外引進(jìn)的學(xué)術(shù)骨干和優(yōu)秀博士,并且,團(tuán)隊(duì)中4人為蒙漢英兼通的蒙古族博士。目前,實(shí)驗(yàn)室正在培養(yǎng)16名博士研究生和113名碩士研究生,其中16名學(xué)術(shù)型碩士研究生和19名專業(yè)學(xué)位碩士研究生已畢業(yè)并獲得碩士學(xué)位,為少數(shù)民族語(yǔ)言信息化的發(fā)展提供了人才保障和技術(shù)支撐。
目前,實(shí)驗(yàn)室共承擔(dān)科研項(xiàng)目34項(xiàng),其中包括國(guó)家重點(diǎn)研發(fā)計(jì)劃(政府間國(guó)際科技創(chuàng)新合作重點(diǎn)專項(xiàng))1項(xiàng),國(guó)家自然科學(xué)基金10項(xiàng)。2019年和2020年,實(shí)驗(yàn)室總投入605萬(wàn)元,購(gòu)置了GPU計(jì)算集群,進(jìn)一步提高了實(shí)驗(yàn)室的計(jì)算能力,為產(chǎn)出高水平的科研成果提供保障。
“蒙古文信息化建設(shè),對(duì)蒙古族文化的發(fā)展具有重要的保護(hù)及傳承作用,所以,對(duì)于蒙古文信息化和人工智能化,我們從前在研究,現(xiàn)在在研究,今后也會(huì)繼續(xù)研究下去,助力蒙古族文化走向世界?!备吖鈦?lái)教授說(shuō)。
(配圖由受訪者提供)