AI也能改病句!科大訊飛摘得中文語法錯誤自動診斷大賽桂冠(科大訊飛ai翻譯)
以前寫作文,老師改語病,如今,AI就能揪出問題。在語病糾錯的武林江湖里,中文又比英文難得多。最近,一場通過AI檢測中文語病的“中文語法錯誤自動診斷大賽”上,哈工大訊飛聯(lián)合實驗室摘得桂冠。
第五屆中文語法錯誤自動診斷大賽(Chinese Grammatical Error Diagnosis,簡稱 CGED)剛在澳大利亞墨爾本舉辦。本屆CGED評測的參賽者可謂高手如云,團隊包括中國社科院、阿里巴巴、北京大學(xué)、哈工大訊飛聯(lián)合實驗室(下文簡稱HFL)等,最終由HFL競得冠軍。而上一屆的冠軍是阿里巴巴團隊。
外國人寫的中文錯句做考題
新增“語病修正”項獲最高分
寫完一篇作文,語文老師批改時從里面選出多余的詞、缺少的詞、使用不當(dāng)?shù)谋硎觥⒁约罢Z序不通的表述,然后一一改正過來。這樣的場景,現(xiàn)在已經(jīng)成為一場世界性的比賽——第五屆中文語法錯誤自動診斷大賽(簡稱CGED)(比賽官網(wǎng):http://www.cged.science)。今年第五屆的評測大會于上周四(2018年7月19日)在澳大利亞墨爾本舉行,這場比賽最終由哈工大訊飛聯(lián)合實驗室摘得桂冠。
比賽方式是,主辦方挑選了一些外國人寫作的中文句子片段,讓參賽者通過人工智能算法技術(shù)對其中的語法語義錯誤進行識別并進行系統(tǒng)性能評估。
今年共13個團隊參加CGED評測
所選“考題”有四種錯誤類型,具體包括多詞、缺詞、用詞不當(dāng)和語序不當(dāng)。
比賽從四個維度對參賽者的能力進行評估:語病識別(即:識別句子是否有錯誤)、語病分類(識別具體的錯誤類型)、語病定位(識別錯誤的位置和類型)、語病修正(對于缺詞和錯詞,提供修正的建議)。一共有13個團隊參加了這項比賽。
在這四項成績中,哈工大訊飛聯(lián)合實驗室獲得了后三項的第一名以及第一項的第二名,總體排名第一,首次參賽便摘得冠軍。
值得一提的是,去年的比賽只有三項成績,第四項“語病修正”是今年才增加的比賽分項。和去年相比,除了“指出問題”,還提供“解決答案”,其難度更上一級。在“語病修正”的任務(wù)中,在“第一候選”或“前三候選”項,HFL分別獲得0.1723分和0.2527分,以絕對領(lǐng)先的成績排第一名。也就是說,在13個參賽團隊中,HFL做語法改錯題成績最棒。
為什么可以在“語病修正”任務(wù)中斬獲佳績?
科大訊飛研究院北京分院副院長、哈工大訊飛聯(lián)合實驗室主任助理付瑞吉分析,因為參賽系統(tǒng)采取了端到端的神經(jīng)網(wǎng)絡(luò)模型與詞匯點互信息相結(jié)合,將語病位置空出,根據(jù)上下文以及語病信息對于該位置正確的詞匯進行推測。擁有極強探索精神的你,可以直接英語論文深究其中原理(鏈接:http://www.aclweb.org/anthology/W18-3707)
糾錯語法AI冠軍如何誕生?
通過神經(jīng)網(wǎng)絡(luò)序列標(biāo)注模型生成
怎么區(qū)分“靜靜的頓河”與“靜靜地等待”這兩個短句中,“的”和“地”有何區(qū)別?哈工大訊飛聯(lián)合實驗室出品的AI神器就能做得到!靠的是對神經(jīng)網(wǎng)絡(luò)序列標(biāo)注模型BiLSTM-CRF進行改進。
付瑞吉分析,這次HFL的AI可以獲得冠軍,有賴于對神經(jīng)網(wǎng)絡(luò)序列標(biāo)注模型BiLSTM-CRF進行改進,包括底層的整個模型、單模型內(nèi)部的融合、模型外的融合三大板塊。具體而言——
第一,將詞向量、統(tǒng)計、先驗的語法知識相融合,如漢語語言習(xí)慣用法等統(tǒng)計特征,比如“靜靜的頓河”和“靜靜地等待”中結(jié)構(gòu)助詞“的”和“地”的使用會根據(jù)上下文的詞性決定;
第二,采用模型內(nèi)部融合的技術(shù),將多個BiLSTM單模型的輸出加權(quán)融合,再經(jīng)過CRF計算最終結(jié)果;
第三,采用了模型選取、模型排序等外部融合方法,發(fā)揮了不同模型的優(yōu)勢。
總體來說,這三項“黑科技”讓哈工大訊飛聯(lián)合實驗室出品的AI可以獲得更好的語感,從而摘冠。
中文比英文語病糾錯難度大得多
語病糾錯應(yīng)用前景廣泛
需要說明的是,在語病糾錯領(lǐng)域,中文比英文難度大得多。這主要由兩個原因決定的:第一,英語語法規(guī)范,有嚴(yán)格的主謂賓;第二,英文積累的語料豐富,劍橋大學(xué)已經(jīng)積累了上千萬個句子。
相較之下,中文語法靈活,語病檢測的技術(shù)難度高得多,而且目前參加評測的語料庫只有3萬多個句子,語料量亟待擴充。
所以,目前英語語法糾錯已經(jīng)有成熟的應(yīng)用,而中文的語法糾錯還處于不斷積累和探索的階段。從現(xiàn)在的評測結(jié)果來看,目前的技術(shù)指標(biāo)還比較低,離實際應(yīng)用尚需時日。
值得期待的是,無論是學(xué)習(xí)外語,還是文稿的錯字校對,這次參賽獲獎的語病檢測和修正技術(shù)未來都將有廣泛的應(yīng)用前景。
據(jù)悉,為了推動這項技術(shù)的發(fā)展,賽事主辦方已經(jīng)將精心標(biāo)注的歷屆比賽數(shù)據(jù)全部開源,付瑞吉說,“我們對主辦方的科學(xué)奉獻精神表示感謝!也希望更多的研究者能夠參與到該任務(wù)中來,共同推動技術(shù)進步”。
HFL“?!痹谀睦??
布局“訊飛超腦”讓機器能理解會思考
哈工大訊飛聯(lián)合實驗室(HFL)是科大訊飛針對“訊飛超腦”項目計劃,重點引進和布局的核心研發(fā)團隊之一,由科大訊飛AI研究院與哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心(HIT-SCIR)在2014年共同創(chuàng)辦。
根據(jù)聯(lián)合實驗室建設(shè)規(guī)劃,雙方將在語言認(rèn)知計算領(lǐng)域進行長期、深入合作,具體開展閱讀理解、自動閱卷、類人答題、人機對話、語音識別后處理、社會輿情計算等前瞻課題的研究。
研究重點將突破深層語義理解、邏輯推理決策、自主學(xué)習(xí)進化等認(rèn)知智能關(guān)鍵技術(shù),支撐科大訊飛實現(xiàn)從“能聽會說”到“能理解會思考”的技術(shù)跨越,并圍繞教育、司法、金融、人機交互等領(lǐng)域?qū)崿F(xiàn)科研成果的規(guī)模化應(yīng)用。目前,HFL有語文評閱、閱讀理解、智能司法、社會計算等研究方向。
2017年7月、10月以及2018年1月,哈工大訊飛聯(lián)合實驗室的閱讀理解研究組(HFL-RC)在業(yè)內(nèi)公認(rèn)的機器閱讀理解頂級賽事斯坦福SQuAD挑戰(zhàn)賽中先后奪得三次第一名。2018年2月,獲得國際語義評測(SemEval 2018)閱讀理解任務(wù)第一名。
這次獲得CGED大賽的是HFL語文評閱研究組,其研發(fā)的作文自動評閱技術(shù)通過自動學(xué)習(xí)人類專家的評分標(biāo)準(zhǔn),對紙筆考試作文從字跡工整度、詞匯豐富性、句子通順度、文采、篇章結(jié)構(gòu)、立意等多個維度綜合評價。目前,作文自動評閱技術(shù)以輔助人工進行評分質(zhì)檢等應(yīng)用方式,已在全國多地考試中應(yīng)用,覆蓋考生數(shù)百萬人。
CGED大賽【考題類型】
看看你強還是AI強?
1.M(missing word)錯詞
錯誤:人戰(zhàn)勝了饑餓,才努力為了下一代做更好的、更健康的東西。
正確:人戰(zhàn)勝了饑餓,才能努力為了下一代做更好的、更健康的東西。
2.R(redundant word) 多詞
錯誤:我根本不能理解這婦女辭職回家的現(xiàn)象。在這個時代,為什么放棄自己的工作,就回家當(dāng)家庭主婦?
正確:我根本不能理解婦女辭職回家的現(xiàn)象。在這個時代,為什么放棄自己的工作,就回家當(dāng)家庭主婦?
3.S( word selection) 用詞不當(dāng)
錯誤:我根本不能了解婦女辭職回家的現(xiàn)象。在這個時代,為什么放棄自己的工作,就回家當(dāng)家庭主婦?
4.W(word order)語序不當(dāng)
錯誤:饑餓的問題也是應(yīng)該解決的。世界上每天由于饑餓很多人死亡。
正確:饑餓的問題也是應(yīng)該解決的。世界上每天很多人由于饑餓死亡。
科大訊飛AI
連獲多項“世界第一”
2017年,國際語音合成大賽全新無監(jiān)督Machine Learning任務(wù)第一名;
2017年-2018年,三次刷新機器閱讀理解領(lǐng)域權(quán)威評測SQuAD世界紀(jì)錄;
2017年10月,刷新自動駕駛領(lǐng)域權(quán)威國際評測Cityscapes世界紀(jì)錄;
2018年,聲音模仿領(lǐng)域 Voice Conversion Challenge獲得第一名;
2018年2月,機器閱讀理解領(lǐng)域第十二屆國際語義評測比賽(International Workshop on Semantic Evaluation, SemEval 2018)第一名;
2018年3月,在由國際醫(yī)學(xué)影像頂級會議ISBI舉辦的IDRiD眼底圖分析競賽中,科大訊飛在最體現(xiàn)機器輔助醫(yī)生診斷能力的病灶分割任務(wù)中最難的子項“MA分割任務(wù)”獲得第一;
2018年4月,在由國際學(xué)術(shù)頂會ICPR舉辦的圖文識別挑戰(zhàn)賽 MTWI Challenge中,科大訊飛與中科大語音及語言國家工程實驗室聯(lián)合團隊在全部三項比賽任務(wù)上獲得第一;
2018年7月,在Blizzard Challenge 2018國際語音合成大賽的比賽中,科大訊飛報送的參賽系統(tǒng)摘得10個測評打分項目中的9項第一,成為“最全能的冠軍”,科大訊飛已在該項比賽中連續(xù)十三年奪冠。
【記者】賓紅霞
【圖片】受訪企業(yè)供圖
【校對】符如瑜
【作者】 賓紅霞
【來源】 南方報業(yè)傳媒集團南方 客戶端