關(guān)注微信公眾號(hào)
創(chuàng)頭條企服版APP
原標(biāo)題:平安金融壹賬通登頂中文機(jī)器閱讀理解CMRC競(jìng)賽榜單
近日,在第三屆中文機(jī)器閱讀理解評(píng)測(cè) (The Third Evaluation Workshop on Chinese Machine Reading Comprehension, CMRC 2019)上,平安金融壹賬通旗下人工智能研究院Gamma Lab憑借自主研發(fā)的中文預(yù)訓(xùn)練語言模型,在資格集和測(cè)試集上分別以QAC (Question Accuracy): 90.789%/PAC(Passage Accuracy): 58.2%和QAC: 90.055%/PAC: 57.6%的分?jǐn)?shù)奪得CMRC2019的榜單排名冠軍。
中文機(jī)器閱讀理解評(píng)測(cè) (The Chinese Machine Reading Comprehension, CMRC)是從2017年開始,由全國計(jì)算語言學(xué)學(xué)術(shù)會(huì)議(CCL)計(jì)劃舉辦評(píng)測(cè)活動(dòng)。CMRC作為全國計(jì)算語言學(xué)學(xué)術(shù)會(huì)議(CCL)的系列評(píng)測(cè),至今已經(jīng)舉辦了三次,是中文機(jī)器閱讀理解技術(shù)最權(quán)威的競(jìng)賽之一。參加此次比賽的單位分別有金融壹賬通Gamma Lab,百度,哈工大&漢儀字庫,順豐科技,sixestate等單位組織。金融壹賬通Gamma Lab在最終測(cè)試集上QAC和PAC分別大幅領(lǐng)先于第二名4.064%和15.8%。說明金融壹賬通Gamma Lab的中文閱讀理解能力在行業(yè)內(nèi)屬于領(lǐng)先地位。
機(jī)器閱讀理解不同于傳統(tǒng)的問答系統(tǒng),無法通過規(guī)則和常識(shí)進(jìn)行來直接回答問題,而是需要模型從文章上下文中尋找線索,進(jìn)行前后文內(nèi)容的理解,才能得到準(zhǔn)確的答案。因此這項(xiàng)任務(wù)也就伴隨著對(duì)算法能力更大的挑戰(zhàn)。
從2017年起,中文閱讀理解開始逐漸受到更大的關(guān)注。CMRC的競(jìng)賽也與時(shí)俱進(jìn),從填空型,抽取型到現(xiàn)在的句子型任務(wù)層層遞進(jìn),目的是使得機(jī)器能夠更加關(guān)注文章全局的語義信息,而不是簡(jiǎn)單的局部特征。
在2018年的BERT問世后,許多閱讀理解任務(wù)的STOA結(jié)果也被BERT刷新了。一石激起千層浪,許多相關(guān)的語言模型也孕育而生,如BERT-WWM, ENIRE, XLNet,RoBERTa等。這些模型在訓(xùn)練規(guī)模上與日俱增,用于下游任務(wù)時(shí)的訓(xùn)練成本也越來越高。
本次競(jìng)賽中Gamma Lab使用BERT_SCP_SPM同時(shí)從2個(gè)方向進(jìn)行了優(yōu)化,首先,以句子插入為輔助任務(wù)代替原來Bert的預(yù)測(cè)上下句任務(wù)。其次,使用sentencepiece來對(duì)中文進(jìn)行分詞以減少文本序列長(zhǎng)度以節(jié)約顯存和捕捉長(zhǎng)文本信息。最終所用的新模型以現(xiàn)在預(yù)訓(xùn)練模型中最小的base規(guī)模即取得了最好的性能結(jié)果。
Gamma Lab相關(guān)人員介紹到,中文機(jī)器閱讀理解可以深入運(yùn)用到多個(gè)金融場(chǎng)景,例如智能客服,該技術(shù)可以幫助機(jī)器在復(fù)雜的金融場(chǎng)景中,準(zhǔn)確、智能的理解客戶表達(dá)的意思,選擇最優(yōu)的解決方案和回答話術(shù)。此外,中文機(jī)器閱讀理解還可以運(yùn)用在金融機(jī)構(gòu)后臺(tái)經(jīng)營管理中,如對(duì)合同、合約等智能化分析等。
早在今年年初,金融壹賬通就已經(jīng)謀劃布局基于機(jī)器閱讀理解技術(shù)的商業(yè)落地,其自主研發(fā)的AskBob智能搜索框架,使用了最先進(jìn)的機(jī)器閱讀理解技術(shù),覆蓋了醫(yī)療、銀行、保險(xiǎn)、投資等各大金融垂直領(lǐng)域,為知識(shí)密集型行業(yè)提供更高效更智能的搜索解決方案,極大提高了從業(yè)人員的工作效率。
不僅如此, Gamma Lab還推出了一款智能音箱——Gamma智能銷售助手,也搭載了最新的機(jī)器閱讀理解技術(shù), 無需任何人工干預(yù),上傳一篇保險(xiǎn)文檔,即可進(jìn)行任何問題的語音交互問答。閱讀理解模塊只需秒級(jí)即可完成文檔的理解,問答準(zhǔn)確率為91.35%,平均業(yè)務(wù)時(shí)間可縮短30%。
事實(shí)上,Gamma Lab自2017年成立以來,已經(jīng)斬獲國內(nèi)外多項(xiàng)人工智能競(jìng)賽的冠軍,包括OMG國際情緒識(shí)別競(jìng)賽、EmotionNet面部動(dòng)作單元識(shí)別競(jìng)賽、SemEval對(duì)話情緒識(shí)別競(jìng)賽、斯坦福機(jī)器閱讀理解SQuAD競(jìng)賽等。金融壹賬通Gamma Lab擁有超過350位科技人才,致力于研發(fā)領(lǐng)先的人工智能技術(shù)。同時(shí),金融壹賬通結(jié)合金融豐富的場(chǎng)景,向金融機(jī)構(gòu)提供智能解決方案,覆蓋基礎(chǔ)數(shù)據(jù)層、業(yè)務(wù)應(yīng)用層、經(jīng)營管理層,實(shí)現(xiàn)金融機(jī)構(gòu)全流程數(shù)字化轉(zhuǎn)型。返回搜狐,查看更多
責(zé)任編輯: