“祝賀你,你為西藏爭得了榮譽(yù)?!?023年12月5日,西藏自治區(qū)黨委書記王君正與新晉院士尼瑪扎西座談,向他表示祝賀。
就在2023年11月23日,中國工程院公布了2023年院士增選當(dāng)選院士名單,尼瑪扎西榜上有名。這是繼多吉院士之后,西藏的第二位工程院院士。
在2023年當(dāng)選院士頒證儀式上,尼瑪扎西作為新當(dāng)選院士代表登臺發(fā)言。他深情地說:“我是沐浴著新西藏的陽光雨露,在黨和國家的關(guān)懷培養(yǎng)下成長起來的。”
30多年來,尼瑪扎西傾盡所學(xué),回饋著養(yǎng)育他的這片大地,為西藏搭建信息化橋梁。
深耕不輟,藏文信息化讓更多的人受益
本世紀(jì)初,手機(jī)在全國普及程度已經(jīng)很高,但對于西藏廣大農(nóng)牧民來說,還有些遙不可及。原來,當(dāng)時價格較為親民的國產(chǎn)手機(jī)無法支持藏文輸入,能夠支持藏文輸入的進(jìn)口手機(jī)價格又讓人望而卻步。
“藏文的國際編碼標(biāo)準(zhǔn)都是由我們確立的,我們沒理由生產(chǎn)不出可以支持藏文輸入的國產(chǎn)手機(jī)。”尼瑪扎西再一次投入到緊張的研發(fā)中。
功夫不負(fù)有心人。尼瑪扎西帶領(lǐng)的西藏大學(xué)團(tuán)隊和中國電信西藏分公司等公司共同研發(fā)數(shù)字移動操作系統(tǒng)藏文版,并推出了基于此的藏文數(shù)字移動電話,于2005年首次實現(xiàn)了手持電子通訊設(shè)備的藏文信息處理,受到廣大農(nóng)牧民的歡迎。
尼瑪扎西并不滿足于此。智能手機(jī)已經(jīng)普及,使用藏語文作為主要溝通語言的人如何更便捷地使用智能手機(jī)?
2014年,尼瑪扎西團(tuán)隊與中國電信西藏分公司、華為集團(tuán)合作研發(fā)智能移動操作系統(tǒng)藏文版——“漢藏安卓操作系統(tǒng)”,并共同推出基于此的智能移動電話,用戶可以通過藏文方便地使用移動電話各項功能。這一操作系統(tǒng)之后被廣泛應(yīng)用于我國的國產(chǎn)手機(jī)中。
2019年起,尼瑪扎西團(tuán)隊開始專注于研發(fā)國產(chǎn)計算機(jī)操作系統(tǒng)多語言支撐技術(shù)版。2021年,由西藏大學(xué)、國防科技大學(xué)和麒麟軟件公司歷時18個月共同開發(fā)的“銀河麒麟操作系統(tǒng)(藏文版)V10”正式發(fā)布。尼瑪扎西團(tuán)隊心無旁騖、馳而不息,深耕藏文信息處理系統(tǒng)技術(shù)領(lǐng)域,不斷推出新的研究成果,服務(wù)西藏的信息化建設(shè),特別是基層干部群眾的工作和生活。
精益求精,藏漢翻譯系統(tǒng)更加“博學(xué)”
在文字信息化過程中,最基礎(chǔ)的工作就是“輸入和輸出”。隨著藏文國際編碼標(biāo)準(zhǔn)的確立,通過尼瑪扎西等一批藏文信息處理專家的不懈努力,藏文“輸入和輸出”已不再是問題。
一個新的課題擺在了尼瑪扎西面前,那就是“溝通”。
“如果一個人只會藏文,或者只會普通話,能不能通過機(jī)器實現(xiàn)溝通?”想要解決這個問題,“機(jī)器翻譯”成為首選。
尼瑪扎西開始涉獵機(jī)器翻譯領(lǐng)域,這對于他來說,又是一個全新的挑戰(zhàn)。
2016年,歷時近5年的艱難探索,由尼瑪扎西主持、近30名成員組成的團(tuán)隊自主研發(fā)的“陽光藏漢機(jī)器翻譯系統(tǒng)”正式上線,并免費(fèi)向公眾提供服務(wù),從前要花費(fèi)十幾個小時的翻譯工作,通過機(jī)器翻譯系統(tǒng),只需要十幾分鐘就可以完成。
想要讓翻譯更加精準(zhǔn),就必須讓系統(tǒng)足夠“博學(xué)”。為此,尼瑪扎西主持研發(fā)了藏文文獻(xiàn)資源數(shù)字化平臺和全文檢索技術(shù),數(shù)字化各類藏文文獻(xiàn)資源,構(gòu)建了藏文文獻(xiàn)資源庫。
“這個系統(tǒng)就像一個牙牙學(xué)語的稚童,要不停地教給它各領(lǐng)域各行各業(yè)的知識,它才可以說出更漂亮的句子來?!蹦岈斣鲌F(tuán)隊成員、機(jī)器翻譯項目成員仁青東主這樣形容“陽光藏漢機(jī)器翻譯系統(tǒng)”。
如今,經(jīng)過團(tuán)隊成員的共同努力,“陽光藏漢機(jī)器翻譯系統(tǒng)”歷經(jīng)多次升級,不僅將準(zhǔn)確率提升至90%以上,系統(tǒng)的最高日訪問量更是達(dá)到11萬余次。在此基礎(chǔ)上研發(fā)的語音翻譯、圖文識別等系列技術(shù)和軟件系統(tǒng)將逐步應(yīng)用于社會生活的方方面面,服務(wù)西藏信息化建設(shè)和數(shù)字經(jīng)濟(jì)發(fā)展。
對于尼瑪扎西團(tuán)隊來說,這些遠(yuǎn)遠(yuǎn)不夠。
“藏文是中國文化的瑰寶,已有1300多年的歷史,是世界上古老的文字之一。我們希望能收錄更多更專業(yè)的藏文文獻(xiàn),讓那些流傳千百年的以藏文承載的文化遺傳得到準(zhǔn)確地翻譯?!比是鄸|主說,目前,團(tuán)隊依然在不斷擴(kuò)充大規(guī)模高質(zhì)量藏文數(shù)據(jù)資源,努力提升漢藏機(jī)器翻譯系統(tǒng)在藏醫(yī)藥、文學(xué)和古籍等專業(yè)性更強(qiáng)的領(lǐng)域的翻譯準(zhǔn)確率。
攻堅克難,發(fā)力藏文古籍文獻(xiàn)數(shù)字化
藏文古籍文獻(xiàn)種類繁多,卷帙浩繁。我國存世藏文古籍總數(shù)約在百萬函以上,其中,約三分之二收藏于西藏。2012年,尼瑪扎西團(tuán)隊又開拓了全新的領(lǐng)域——藏文古籍文獻(xiàn)深度數(shù)字化。
要想將古籍?dāng)?shù)字化,最先要攻克的難題就是圖像識別技術(shù)。圖像識別可以將藏文文檔圖片識別成計算機(jī)可以閱讀的文檔,這樣就有可能利用信息技術(shù)對古籍內(nèi)容進(jìn)行檢索、翻譯、分析和理解等進(jìn)一步的處理和利用。
藏文屬于拼音文字,字形無定長、無定寬、字符形態(tài)變化大。古籍存在版式多樣、圖文混排、結(jié)構(gòu)緊密等現(xiàn)象,不同抄錄人的筆跡、書寫習(xí)慣也不盡相同,導(dǎo)致識別難度高,藏文古籍文獻(xiàn)的數(shù)字化技術(shù)研發(fā)和全文數(shù)據(jù)庫的建設(shè)極為復(fù)雜。
通過承擔(dān)國家重點研發(fā)計劃重點專項,尼瑪扎西帶領(lǐng)團(tuán)隊?wèi)?yīng)用新一代人工智能技術(shù)集智攻關(guān),攻克了藏文古籍文獻(xiàn)掃描識別、數(shù)字化無損采集、數(shù)字化協(xié)同工作、全文數(shù)據(jù)庫構(gòu)建和檢索等制約藏文古籍文獻(xiàn)數(shù)字化保護(hù)和利用的系列技術(shù)瓶頸,研發(fā)了藏文古籍版面分析與多字體文字識別系統(tǒng),工程化應(yīng)用于藏文古籍?dāng)?shù)字化保護(hù)和利用、藏醫(yī)藥知識工程技術(shù)研發(fā)等諸多領(lǐng)域,實現(xiàn)了藏文古籍保護(hù)和利用的重要突破。
2022年,尼瑪扎西團(tuán)隊“藏文古籍文獻(xiàn)數(shù)字化技術(shù)研發(fā)和應(yīng)用”榮獲西藏自治區(qū)科學(xué)技術(shù)獎一等獎。
“目前,研發(fā)成果已經(jīng)在西藏圖書館、布達(dá)拉宮古籍?dāng)?shù)字化保護(hù)中得到了廣泛應(yīng)用?!蹦岈斣鲌F(tuán)隊成員、西藏大學(xué)信息科學(xué)技術(shù)學(xué)院教授擁措介紹說,在該項研發(fā)成果的基礎(chǔ)上,團(tuán)隊還承擔(dān)了自治區(qū)有關(guān)圖文識別研究項目,通過利用前沿的人工智能算法,對多場景多字體識別技術(shù)做了更進(jìn)一步的研究,包括古籍和其他場景下的多字體文字識別技術(shù)。
如今的西藏,信息化高速發(fā)展,當(dāng)選中國工程院院士的尼瑪扎西并沒有停下奮斗的腳步,他和團(tuán)隊又把目光瞄準(zhǔn)了人工智能領(lǐng)域?!耙尲夹g(shù)賦能民生改善,利用人工智能技術(shù)研發(fā)語言技術(shù),使農(nóng)牧區(qū)群眾在醫(yī)院看病、在銀行辦事等社會生活中更加方便,使所有人都能感受到國家經(jīng)濟(jì)發(fā)展和信息技術(shù)進(jìn)步帶來的便捷生活?!蹦岈斣髡f。(記者:湯銘明 索朗群培 康潔白姆 次仁平措 晉巴次成 洛桑平措 對本文亦有貢獻(xiàn))
版權(quán)聲明:凡注明“來源:中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來源中國西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責(zé)任。