關(guān)注微信公眾號(hào)
創(chuàng)頭條企服版APP
原標(biāo)題:Google發(fā)布兩神經(jīng)語言對(duì)話資料集
Google發(fā)布Coached Conversational Preference Elicitation(CCPE)和Taskmaster-1兩個(gè)可用于訓(xùn)練數(shù)位助理對(duì)話能力的資料集,其中CCPE能幫助人工智能學(xué)習(xí)人類表達(dá)偏好的方法,而Taskmaster-1則能增加訓(xùn)練語料庫(kù)的大小以及對(duì)話者的多樣性。
雖然近年來數(shù)位助理的對(duì)話能力,比起過去已經(jīng)有長(zhǎng)足的進(jìn)步,但是仍然未達(dá)到與人類相同的理解程度,Google提到,這是因?yàn)槿狈δ軌蚍磻?yīng)人類表達(dá)需求和偏好的訓(xùn)練資料。數(shù)位助理的學(xué)習(xí)限制,來自于人類希望數(shù)位助理理解人類表達(dá)的方式,人類雕琢了訓(xùn)練數(shù)位助理模型的字句,而造成了人工智能的學(xué)習(xí)偏差。
為了解決這個(gè)問題,Google發(fā)布了CCPE以及Taskmaster-1兩個(gè)對(duì)話資料集,里面的對(duì)話皆采用名為綠野仙蹤(Wizard of Oz)的方法,該方法配對(duì)兩個(gè)參與對(duì)話的人,其中一人扮演語音助理使用者,另一位則扮演理想的數(shù)位助理,整個(gè)設(shè)計(jì)模仿今日人類與數(shù)位語音助理對(duì)話過程,并能在自動(dòng)化系統(tǒng)環(huán)境中,保留口語對(duì)話的特征。
Google表示,由于人類扮演的數(shù)位助理,能夠精確理解用戶的要求,因此Google同時(shí)也能捕捉用戶,真實(shí)呈現(xiàn)自己想法與偏好的表達(dá)方式,而Google便捕捉這些對(duì)話,制作成CCPE以及Taskmaster-1兩個(gè)對(duì)話資料集。
CCPE資料集包含12,000個(gè)注釋范例語句的502個(gè)對(duì)話,由一人扮演使用者對(duì)麥克風(fēng)講話,而聲音直接向扮演數(shù)位助理的人工助理播放,并由人工助理以文字輸入回應(yīng),回應(yīng)以文字轉(zhuǎn)語音技術(shù)轉(zhuǎn)成聲音后播放給使用者聽,模擬使用者與數(shù)位助理對(duì)話的真實(shí)情況。
CCPE資料集中對(duì)話的內(nèi)容在談?wù)撾娪捌茫珿oogle提到,真實(shí)人類的對(duì)話,包含了合成對(duì)話難以重現(xiàn)的不流暢和錯(cuò)誤等自然情況,另外,這個(gè)資料集還呈現(xiàn)了許多人類描述偏好的方法,而且Google也發(fā)現(xiàn),由系統(tǒng)所提供的電影喜好過濾器,可能不適合使用者用來描述喜好的語言。CCPE資料集是第一個(gè)大規(guī)模呈現(xiàn)喜好描述豐富度的資料集。
Taskmaster-1則是任務(wù)面向的資料集,Taskmaster-1里的對(duì)話除了采用綠野仙蹤方法之外,也使用書寫完整對(duì)話的方法,來增加語料庫(kù)大小以及談話者的多樣性。書寫方法是由一個(gè)人同時(shí)扮演用戶以及人工助理,依照任務(wù)概述獨(dú)自創(chuàng)建完整的對(duì)話,Google提到,雖然口語對(duì)話會(huì)更接近對(duì)話語言,但是書寫的對(duì)話復(fù)雜豐富,而且更便宜且易于收集。
Taskmaster-1包含了訂購(gòu)披薩、建立汽車維修預(yù)約、設(shè)置租車、訂購(gòu)電影票、訂購(gòu)咖啡以及預(yù)約餐廳6種任務(wù)對(duì)話。這個(gè)資料集使用簡(jiǎn)單注釋架構(gòu),建立資料的人員可以簡(jiǎn)單地為資料加上標(biāo)簽。返回搜狐,查看更多
責(zé)任編輯: